天天看點

首發 | 性能飙升100% 焱融全閃存儲成功适配 InfiniBand 400Gbps 網絡

作者:焱融科技
首發 | 性能飙升100% 焱融全閃存儲成功适配 InfiniBand 400Gbps 網絡

近日,焱融全閃分布式檔案存儲 F8000X 在英偉達網絡中國實驗室成功完成與 NVIDIA Quantum-2 InfiniBand ConnectX-7 NDR 400Gbps 智能網卡(HCA) 的适配及性能調優,其在存儲層支援多張 InfiniBand 網卡聚合,實作多卡性能疊加和高可用。實測單個存儲節點配置 2 張 NDR 400Gbps 網卡,可達 80GBps 帶寬和 300 萬 IOPS 的極緻性能,是國内首家支援 NVIDIA Quantum-2 InfiniBand ConnectX-7 系列網卡的檔案存儲廠商。

實作 AI 大模型先進算力

存儲網絡是關鍵

近年來, HPC 高性能計算與人工智能、大資料等新興技術互相融合,催生了衆多新的應用與創新,如科學智能 AI for Science,也推動了大型智算資料中心的建設。随着資料中心分布式計算叢集的規模越來越大,資料量指數級膨脹,而大規模叢集間大量資料傳輸的開銷也越來越大,這需要高性能、低延時的網絡來實作對算⼒、存儲等分布資源的整合。比如:大模型訓練叢集往往采用混合并行(模型并行+資料并行+張量并行)的方式進行訓練,GPU 叢集從存儲叢集拉去樣本資料、GPU 節點之間的參數互動,這兩個資料傳輸的流程都需要高性能、低延時的網絡作為基礎。

InfiniBand 作為高性能計算的計算機網絡通信标準,具有極高的吞吐量和極低的延遲,用于計算機與計算機之間的資料互連,是業界公認的在 HPC、大模型 AI 訓練等計算場景中首選網絡類型。在最新釋出的全球最強超級計算機排名 Top500 的榜單中,InfiniBand 網絡再次以絕對的數量和性能優勢蟬聯超級計算機互連裝置數量榜首。

首發 | 性能飙升100% 焱融全閃存儲成功适配 InfiniBand 400Gbps 網絡

InfiniBand 網絡在 Top500 網絡互聯技術占比

NVIDIA Quantum-2 采用第七代 NVIDIA InfiniBand 網絡架構,支援軟體定義網絡、網絡計算、性能隔離、進階加速引擎、原生支援 RDMA 等技術特性,高達 400 GBps 的網絡帶寬,在降低成本和複雜性的同時為高性能計算 (HPC)、AI 和超大規模雲基礎設施中帶來超強性能的網絡平台支撐。

焱融追光 F8000X 是焱融科技為比對大規模 GPU 并發資料處理需求,傾力打造的全閃分布式檔案存儲一體機系列産品。搭載新一代 64 位計算平台和焱融高性能分布式檔案存儲系統 YRCloudFile,采用全 NVMe 閃存媒體、200/400Gbps InfiniBand 和 100GbE 以太網等高速網絡,支援 RDMA、RoCE 和多網卡聚合技術,憑借極緻存儲性能充分釋放計算潛力。為充分發揮出全閃存儲媒體(NVMe SSD )和InfiniBand 高速網絡等先進硬體的能力,完美比對高性能 GPU 算力叢集對資料通路的需求,焱融 F8000X 進行了全面深度的優化設計:

  • 異步多隊列線程池模型:能夠充分利用 NVMe 的多隊列特性,高效配置設定處理器核心資源,支撐網絡層面高并發資料收發處理的同時,還可以避免大量線程的排程開銷,充分發揮 NVMe SSD 磁盤性能。
  • 采用 Polling 的方式減少系統上下文切換,降低延遲:針對 NVMe 全閃系統采用直接 Polling 的方式,相當于是用 CPU 資源換取低延遲,每個盤啟動一個線程一直 polling,當來任務時立馬去感覺到事件去處理,使得 IOPS 提升,降低延遲。
  • 通過 Multi-Channel 技術實作多張 InfiniBand 網卡帶寬性能聚合,在大 IO 場景下可以輕松跑滿全部網卡性能,單個存儲節點可以達到 80 GBps 帶寬和 300 萬以上的 IOPS 的極緻性能。同時支援多網卡的 failover 以及自動檢測的 failback 功能,避免鍊路故障造成的業務中斷。
  • 支援 NVIDIA GPUDirect Storage(GDS)技術:支援 GPUDirect Storage(GDS)功能,能夠更好地管理資料路徑,使得資料在應用程式和存儲之間通過更短、更有效的路徑傳輸。進而使支援 GDS 的應用程式能夠充分釋放 GPU 計算能力,為人工智能和機器學習(AI/ML)以及資料分析等業務加速。

400Gbps InfiniBand ✖️焱融全閃 F8000X

性能飙升 100%

在實際測試中, 焱融全閃分布式檔案存儲 F8000X 搭載 NVIDIA Quantum-2 InfiniBand NDR 400Gbps 與上一代 NVIDIA Quantum InfiniBand HDR 200Gbps 網絡的實測性能對比表現如下:

首發 | 性能飙升100% 焱融全閃存儲成功适配 InfiniBand 400Gbps 網絡

IOPS 性能

首發 | 性能飙升100% 焱融全閃存儲成功适配 InfiniBand 400Gbps 網絡

帶寬性能

可以看到,搭載 2 張 NDR 400Gbps InfiniBand 網卡的 F8000X 存儲節點,每個存儲節點的帶寬性能可以達到 80GBps,IOPS 性能可以達到 300萬,性能提升 100%。

作為焱融科技的深度合作夥伴,英偉達表示:“焱融科技是國内最早采用 Quantum 平台 InfiniBand 的并行檔案存儲系統的合作夥伴,基于 InfiniBand 原生 RDMA,無損網絡及超低延遲時間的特性,焱融的并行檔案系統 YRCloudFile 具備業界一流的存儲性能和接近線性的擴充能力,非常适合大規模高性能叢集的存儲場景應用。”

——英偉達網絡進階市場開發經理陳龍

焱融科技作為業界領先的分布式檔案存儲廠商,推出的 F8000X 全閃分布式檔案存儲産品,國内首家支援 400Gbps NDR InfiniBand 網絡,并率先通過 Multi-Channel 技術支援 800Gbps InfiniBand 網絡,再次完成巨大性能提升。F8000X 全閃分布式檔案存儲産品廣泛使用于 HPC 高性能計算 、AI 大模型訓練、高性能資料分析 HPDA、自動駕駛、生信分析等應用場景,并在人工智能、自動駕駛、網際網路、工業制造等多個行業使用者的核心業務平台上線,落地數十家領先的企業和科研機構,部署規模達到數百個存儲節點,支撐的最大計算叢集規模超過 2000 台計算節點,是企業首選的高性能存儲系統。

推薦閱讀

國内首發|焱融科技 YRCloudFile 支援 NVIDIA GPUDirect Storage(GDS)

焱融全閃 X NVIDIA InfiniBand:打造 AI 時代 GPU 計算的高性能存儲技術

繼續閱讀