天天看點

焱融科技 YRCloudFile 率先支援 NVIDIA GPUDirect Storage(GDS)

作者:焱融科技
焱融科技 YRCloudFile 率先支援 NVIDIA GPUDirect Storage(GDS)

2020 年 GPT-3 模型的參數量首次突破千億大關,達到了 1750 億,堪稱“大力出奇迹”。今日淩晨,萬衆矚目的大型多模态模型 GPT-4 正式釋出!GPT-4 是多模态的,同時支援文本和圖像輸入功能。該版本“更強大”,模型精度随着模型尺寸及訓練資料的增加而顯著提升。

訓練巨量模型需要巨大的算力,但随着資料集和模型規模不斷增加,應用程式載入資料所花費的時間變得越長,進而影響了應用程式的性能,緩慢的 I/O 嚴重拖累GPU 的強大算力。如何大幅提升 GPU 載入大型資料集的速度将是計算和存儲系統共同面臨的最大挑戰。為更加完美地滿足大規模計算叢集對于存儲系統的資料通路需求,進一步發揮強大的 GPU 計算能力,将性能發揮到極緻,焱融技術團隊曆時 6 個月的時間完成對 NVIDIA GPUDirect Storage(GDS)的适配開發,實作以直接記憶體的存取方式,将資料傳輸至 GPU 記憶體上,顯著降低 I/O 延遲,提升資料帶寬。

GDS 簡述

現代 AI 和資料科學工作是由大量資料驅動的,随着人工智能以及高性能運算的資料集規模不斷增加,GPU 計算和資料中心存儲系統之間的快速通信變得至關重要。資料從 NVMe 磁盤傳輸到 GPU 記憶體的标準路徑,傳統的方式是由 CPU 控制的,使用系統內存中的回彈緩存(Bounce Buffer)做資料的中轉。這種操作過程會産生額外的資料拷貝工作,造成很大的系統開銷。當資料集的規模不斷增加,應用程式載入資料花費的時間會變得越來越長,進而影響了應用運作的性能。

焱融科技 YRCloudFile 率先支援 NVIDIA GPUDirect Storage(GDS)

NVIDIA GPUDirect Storage(GDS) 技術通過 DMA 引擎将硬碟資料直接寫入 GPU 顯存,這種以直接記憶體的存取方式,避免了記憶體 bounce buffers 所帶來的額外資料拷貝,進而實作 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系統總線的帶寬壓力。近來,由于高速 RDMA 網絡的普及,GPUDirect storage 可以高效地直接通路遠端儲存設備,諸如一些 NVMe的 target 方案和一些企業級分布式存儲産品,它能有效減輕 CPU I/O 瓶頸,提升資料傳輸的 I/O 帶寬的同時,降低I/O延遲。

支援 GPUDirect 技術的性能收益

英偉達開發的 GPUDirect Storage 技術,大幅提升 GPU 載入大型資料集的速度。GDS 通過更快、更直接的資料路徑提高了存儲和 GPU 之間資料移動的效率。資料直接從主機上的網卡(NIC)傳輸到 GPU,而不需要經過系統記憶體和 CPU。這種方式消除了系統架構中 IO 路徑瓶頸,減少了不必要的資料複制,降低了延遲,同時,釋放出來的計算資源還可用于深度學習中諸如圖形處理等其他業務。NVIDIA 表示通過支援 GPUDirect 技術能夠帶來多方面的性能收益:

  • GDS 在存儲和 GPU 之間提升 2~8 倍的資料傳輸帶寬。
  • 避免了 CPU 在記憶體中的 bounce buffers 拷貝,在某些場景下端到端傳輸的延遲能夠實作 3.8x 的降低。
  • 當 GPU 并發度增加時,GDS 仍然保持穩定的低延遲輸出。
  • GPU 不僅作為實作最高帶寬的計算引擎,同時也作為實作最高 IOPS 的計算引擎。

在某些場景的實測資料表明,如果單純使用 CPU,吞吐率僅能達到 50GB/s;而在使用 GPU 之後,吞吐率可達到 215 GB/s。是以,能支援 GDS 的存儲系統更能充分比對前端的異構計算能力。

焱融科技 YRCloudFile 率先支援 NVIDIA GPUDirect Storage(GDS)

GPUDirect Storage 架構圖

焱融分布式檔案存儲系統 YRCloudFile 支援 GDS 的大體流程:

YRCloudFile 用戶端向 nvidia-fs 注冊後,cuFile 打開一個 YRCloudFile 叢集檔案,會将 nvidia-fs 和 YRCloudFile 的特定接口進行綁定,當 io 下發到 client 中,client 檢測該 IO 是否是 GDS 的請求,如果是,則回調 nvidia-fs 的 map 接口,獲得 sglist 請求的 dma 位址,借助底層驅動能力,實作資料的RMDA 傳輸。

寫到最後

NVIDIA®Magnum IO GPUDirect® 技術,能夠顯著降低 GPU 伺服器内的 CPU 占用率,增加存儲帶寬并減少延遲。焱融科技是國内支援 GPUDirect® 功能的首家分布式檔案存儲廠商,能夠更好地管理資料路徑。焱融檔案存儲系統與 GDS 的組合使得資料在應用程式和存儲之間通過更短、更有效的路徑傳輸,實作 1+1>2 的功能效果。進而使支援 GDS 的應用程式能夠充分釋放 GPU 計算能力,為人工智能和機器學習(AI/ML)以及資料分析等業務加速。

2022 年,焱融追光全閃檔案一體機單存儲節點達到 40GB/s+ 帶寬和 200萬+ IOPS 性能,并應用于人工智能、智能汽車、智能制造、教育等行業生産環境中,為企業使用者成功建構高性能存儲平台。在服務全球 500 強制造業的客戶中,完成國内首個雙 200Gb 網絡聚合分布式檔案存儲叢集部署,實作 AI 計算平台破千萬 IOPS 性能實踐。

繼續閱讀