天天看點

低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”

作者:星融元Asterfusion

ChatGPT背後的基礎設施:AI計算叢集

早在2019年向 OpenAI 投資10億美元的時候起,微軟就同意為這家 AI 初創企業建構一台大型超級計算機。近期,微軟在官博上連發兩文,親自解密了這台超級昂貴的超級計算機以及Azure的重磅更新。負責雲計算和AI業務的微軟副總裁 Scott Guthrie 表示,微軟在這個項目上花費了數億美元,将數以萬計的 Nvidia A100 GPU 和 Azure 雲計算平台串聯在一起。

低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”

對于諸如 ChatGPT 這類 AI 深度學習模型,巨量的高性能算力無疑是重中之重。但是人們常常容易忽略網絡傳輸在AI訓練提速中的作用。尤其是大規模叢集分布式訓練的場景下,網絡扮演了一個極為關鍵的角色:為了訓練一個大型語言模型,計算工作量被配置設定到叢集中成千上萬個 GPU 上,這就需要借助高吞吐、低延遲時間的網絡達成大算力晶片間的協同工作,以整合海量晶片的算力。

我們從Azure面向“生成式AI”所做的基礎設施更新也可以看到,網絡互連能力在其中占據了很大比重。

微軟推出了 ND H100 v5 虛拟機,它支援按需大小不等的 8 到數千個 NVIDIA H100 GPU,這些 GPU 通過 NVIDIA Quantum-2 InfiniBand 網絡互連。與上一代 ND A100 v4 VM 相比,客戶将看到人工智能模型的性能顯着提高,這些創新技術包括:

  • 8個NVIDIA H100 Tensor Core GPU通過下一代NVSwitch和NVLink 4.0互聯
  • 每個GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每個虛拟機有3.2Tb/s的無阻塞胖樹型網絡
  • NVSwitch和NVLink 4.0在每個虛拟機的8個本地GPU之間具有3.6TB/s的雙向帶寬
  • 第四代英特爾至強可擴充處理器
  • PCIE Gen5到GPU互連,每個GPU有64GB/s帶寬
  • 16通道4800MHz DDR5 DIMM

微軟所選擇的InfiniBand,超低延遲時間網絡的唯一正解?

InfiniBand(簡稱IB)網絡是通過 InfiniBand 交換機在節點之間直接建立一個專用的受保護通道,并通過 InfiniBand 網卡管理和執行遠端直接記憶體通路(RDMA),與其他網絡通信協定相比可以做到更低的延遲。

然而目前IB技術方案被少數海外供應商鎖定的狀态,給使用者帶來了諸多不便:首先是IB 交換機的供貨周期過長,很容易影響到整體業務的正常上線,推遲的每一天都在白白損失已建成部分的投入成本;轉入日常運維階段後,IB網絡的故障排查仍然高度依賴原廠,其售後響應速度也經常為人诟病。

像ChatGPT這類大規模AI計算叢集網絡,動辄便是上千卡級别的體量。AI大模型訓練的固有需求之下,算力側的成本優化空間相對有限,但如果能在網絡側尋找到與IB性能相近的平替方案,降低前期建設和後期運維等各方面投入,或許是個不錯的思路。

自從RoCE(RoCEv2)出現以來,一些以前IB特有的技術比如 RDMA,協定解除安裝等,現在已經可以在以太網上應用了。不光是AI訓練的後端網絡,在科研超算、實時雲服務、金融高頻交易等場景,用優化後的以太網技術去替代 IB也漸漸具有了可行性。

低成本以太網代替IB網絡的可行性

從網絡架構來看,目前較為合适的是基于以太網的三層 CLOS 架構(Spine-leaf),在全盒式組網的情況下,任何兩台伺服器之間的通信不會超過三台交換機。

從網絡層協定來看,下面幾類 RDMA 網絡中,RoCEv2 的性能較好、部署成本低、相容性強;但受限于傳統以太網“盡力而為”的特性,需要交換機支援建構一張零丢包、低延遲、高性能的無損網絡。

低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”

星融元 CX-N 系列超低延遲時間雲交換機作為一款通用的以太網裝置,從底層交換晶片到上層的各種協定棧皆面向低延遲時間場景深度優化,可提供 Port to Port ~400ns 的轉發時延,全速率下(10G~400G)轉發時延相同,并且支援多種資料中心進階功能(如PFC、ECN等)以避免丢包和網絡擁塞。

多個客戶曾在現場用我們CX-N系列32 x 100G 的以太網交換機和 32 x 100G IB交換機(Mellanox SB7700)做對比測試,結果顯示:CX-N系列以太網交換機的性能可以接近IB交換機,部分資料甚至比IB交換機更好。【詳見文末附錄】

綜上:基于星融元CX-N系列雲交換機搭建的超低延遲時間無損以太網能夠很好地承載RoCEv2,為使用者打造一張高成本效益的低延遲時間網絡。

【HPC場景】測試結果

低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”
低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”
低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”

【分布式存儲場景】測試結果

低延遲時間AI計算叢集網絡,ChatGPT成功離不開的“金牌輔助”

CX-N系列:超低延遲時間、超高性能、智能運維的雲資料中心交換機 - 星融元Asterfusion

趕緊戳戳

繼續閱讀