2020 年 GPT-3 模型的參數量首次突破千億大關,達到了 1750 億,堪稱“大力出奇迹”。今日淩晨,萬衆矚目的大型多模态模型 GPT-4 正式釋出!GPT-4 是多模态的,同時支援文本和圖像輸入功能。該版本“更強大”,模型精度随着模型尺寸及訓練資料的增加而顯著提升。
訓練巨量模型需要巨大的算力,但随着資料集和模型規模不斷增加,應用程式載入資料所花費的時間變得越長,進而影響了應用程式的性能,緩慢的 I/O 嚴重拖累GPU 的強大算力。如何大幅提升 GPU 載入大型資料集的速度将是計算和存儲系統共同面臨的最大挑戰。為更加完美地滿足大規模計算叢集對于存儲系統的資料通路需求,進一步發揮強大的 GPU 計算能力,将性能發揮到極緻,焱融技術團隊曆時 6 個月的時間完成對 NVIDIA GPUDirect Storage(GDS)的适配開發,實作以直接記憶體的存取方式,将資料傳輸至 GPU 記憶體上,顯著降低 I/O 延遲,提升資料帶寬。
GDS 簡述
現代 AI 和資料科學工作是由大量資料驅動的,随着人工智能以及高性能運算的資料集規模不斷增加,GPU 計算和資料中心存儲系統之間的快速通信變得至關重要。資料從 NVMe 磁盤傳輸到 GPU 記憶體的标準路徑,傳統的方式是由 CPU 控制的,使用系統內存中的回彈緩存(Bounce Buffer)做資料的中轉。這種操作過程會産生額外的資料拷貝工作,造成很大的系統開銷。當資料集的規模不斷增加,應用程式載入資料花費的時間會變得越來越長,進而影響了應用運作的性能。
NVIDIA GPUDirect Storage(GDS) 技術通過 DMA 引擎将硬碟資料直接寫入 GPU 顯存,這種以直接記憶體的存取方式,避免了記憶體 bounce buffers 所帶來的額外資料拷貝,進而實作 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系統總線的帶寬壓力。近來,由于高速 RDMA 網絡的普及,GPUDirect storage 可以高效地直接通路遠端儲存設備,諸如一些 NVMe的 target 方案和一些企業級分布式存儲産品,它能有效減輕 CPU I/O 瓶頸,提升資料傳輸的 I/O 帶寬的同時,降低I/O延遲。
支援 GPUDirect 技術的性能收益
英偉達開發的 GPUDirect Storage 技術,大幅提升 GPU 載入大型資料集的速度。GDS 通過更快、更直接的資料路徑提高了存儲和 GPU 之間資料移動的效率。資料直接從主機上的網卡(NIC)傳輸到 GPU,而不需要經過系統記憶體和 CPU。這種方式消除了系統架構中 IO 路徑瓶頸,減少了不必要的資料複制,降低了延遲,同時,釋放出來的計算資源還可用于深度學習中諸如圖形處理等其他業務。NVIDIA 表示通過支援 GPUDirect 技術能夠帶來多方面的性能收益:
- GDS 在存儲和 GPU 之間提升 2~8 倍的資料傳輸帶寬。
- 避免了 CPU 在記憶體中的 bounce buffers 拷貝,在某些場景下端到端傳輸的延遲能夠實作 3.8x 的降低。
- 當 GPU 并發度增加時,GDS 仍然保持穩定的低延遲輸出。
- GPU 不僅作為實作最高帶寬的計算引擎,同時也作為實作最高 IOPS 的計算引擎。
在某些場景的實測資料表明,如果單純使用 CPU,吞吐率僅能達到 50GB/s;而在使用 GPU 之後,吞吐率可達到 215 GB/s。是以,能支援 GDS 的存儲系統更能充分比對前端的異構計算能力。
GPUDirect Storage 架構圖
焱融分布式檔案存儲系統 YRCloudFile 支援 GDS 的大體流程:
YRCloudFile 用戶端向 nvidia-fs 注冊後,cuFile 打開一個 YRCloudFile 叢集檔案,會将 nvidia-fs 和 YRCloudFile 的特定接口進行綁定,當 io 下發到 client 中,client 檢測該 IO 是否是 GDS 的請求,如果是,則回調 nvidia-fs 的 map 接口,獲得 sglist 請求的 dma 位址,借助底層驅動能力,實作資料的RMDA 傳輸。
寫到最後
NVIDIA®Magnum IO GPUDirect® 技術,能夠顯著降低 GPU 伺服器内的 CPU 占用率,增加存儲帶寬并減少延遲。焱融科技是國内支援 GPUDirect® 功能的首家分布式檔案存儲廠商,能夠更好地管理資料路徑。焱融檔案存儲系統與 GDS 的組合使得資料在應用程式和存儲之間通過更短、更有效的路徑傳輸,實作 1+1>2 的功能效果。進而使支援 GDS 的應用程式能夠充分釋放 GPU 計算能力,為人工智能和機器學習(AI/ML)以及資料分析等業務加速。
2022 年,焱融追光全閃檔案一體機單存儲節點達到 40GB/s+ 帶寬和 200萬+ IOPS 性能,并應用于人工智能、智能汽車、智能制造、教育等行業生産環境中,為企業使用者成功建構高性能存儲平台。在服務全球 500 強制造業的客戶中,完成國内首個雙 200Gb 網絡聚合分布式檔案存儲叢集部署,實作 AI 計算平台破千萬 IOPS 性能實踐。