天天看點

大規模GPU叢集,卡間互聯成為新課題

作者:中國電子報

大規模GPU叢集,卡間互聯成為新課題

大規模GPU叢集,卡間互聯成為新課題

大模型訓練對算力基礎設施的要求從單卡拓展到了叢集層面,這對大規模卡間互聯的相容性、傳輸效率、時延等名額提出了更高的要求。近日,中國移動研究院網絡與IT技術研究所主任研究員陳佳媛在公開演講中盤點了大模型發展的最新趨勢,萬億參數大模型對于計算叢集和互聯技術的最新要求,并提出全向智感互聯(OISA)的設計方案,以突破大規模卡間互聯的技術瓶頸。

大模型發展仍遵循尺度定律

目前,大模型的發展呈現三大技術趨勢:從規模來看,大模型的技術發展總體上遵循尺度定律(ScalingLaw),參數規模從千億擴充到萬億,業界已出現多個萬億參數模型,十萬億模型即将出現,且随着參數量的增大,大模型處理問題的能力也随之增強,例如,GPT-4(1.8萬億參數量)在處理複雜任務方面的能力已經遠超GPT-3.5(1750億參數量)。從模型泛化程度來看,模型結構在原有Transformer的基礎上,引入了擴散模型、MoE(混合專家模型),使得模型的泛化能力增強、性能提升,大模型從支援自然語言的單一模态下的單一任務,逐漸發展為支援語音、文字、圖像、視訊等多種模态下的多種任務。從架構來看,模型架構正從資源密集的稠密結構向資源節約的稀疏結構轉變,通過隻激活部分神經元,展現出與稠密結構相媲美的性能。

對于大模型企業而言,能否搭建起大算力的基礎設施成為能否實作大模型創新落地的關鍵。由此,國内外大型科技公司正在積極投建萬卡叢集智算中心。例如,OpenAI用25000張A100訓練GPT-4。

大規模GPU叢集,卡間互聯成為新課題

大型科技公司建立的萬卡叢集智算中心

萬億模型對卡間互聯提出了更高的要求

大模型訓練參數量的提高引發了業界對支撐該訓練所需智算裝置形态的思考:新一代智算裝置需要具備更高密度的算存硬體、高性能無阻塞的網絡連接配接以及更高并行度的訓練政策和通信範式。

首先,萬億模型對卡間互聯性能提出了更嚴苛的要求。

千億模型的通信将伺服器作為節點,單節點的通信要求集中在8卡以内。而在萬億參數量模型中,網絡節點成為由百卡組建的“超節點”,同時MoE(混合專家模型)及并行政策被引入AlltoAll通信,其特征是單次通信資料量小,但通信頻繁,對高帶寬、低延遲時間的要求更為迫切。陳佳媛認為,伺服器的發展方向是TP(張量模型并行)效率提升,實作資料在所有的GPU之間充分計算。

其次,萬億模型需要包含交換晶片的互聯拓撲。

當智算中心向百卡級别的全互聯方向演進,傳統的直連拓撲結構不再适用,迫切需要轉向更高效、更先進的互聯拓撲設計。在十億或中等模型中,互聯拓撲以橋接的形式實作,可以支援至多四卡的互聯,單卡最大吞吐量為3個端口;在千億參數模型中,國内主流方案中,互聯拓撲通過直連拓撲,以Cube Mesh或全互聯方式實作,Cube Mesh支援通信需求從4卡拓展到8卡,單卡最大吞吐4~6個端口,全互聯方式則可實作8卡全互聯,單卡最大吞吐為7個端口,P2P帶寬為幾十個GB;而英偉達則通過8卡交換全互聯方式實作,可将P2P帶寬提升到百GB級别。

大規模GPU叢集,卡間互聯成為新課題

不同規模模型互聯拓撲方式對比

再次,萬億模型需要異構晶片之間建構大容量統一記憶體池。

模型規模的增長帶來了對GPU顯存容量需求的提高。單顆晶片往往難以滿足對超大顯存的需求。AI業務如搜尋引擎、廣告投放和推薦系統等,涉及大量資料處理、複雜算法計算和精密系統控制,這要求CPU、GPU、xPU等多個晶片能夠高效協同作業。原有異構晶片連接配接基于PCIe實作,資料搬運速度慢,同時帶寬受限,是以需要建立多異構晶片統一記憶體池,既在運作流程上實作多處理器記憶體一緻性通路,又實作近TB/s級帶寬能力。通過多異構晶片的互聯實作統一記憶體池,能夠提高顯存性能、提升開發效率,促進CPU/GPU/xPU有效協同。

突破GPU卡間互聯技術瓶頸

目前,單晶片算力還跟不上生成式AI爆發性的需求。為滿足需求,各半導體廠商紛紛推出性能更優的伺服器晶片及更新的互聯技術:行業标杆英偉達陸續推出超級晶片(SuperChip:GH200和GB200);Intel Gaudi2采用8卡全互聯拓撲,每個Guadi2晶片通過21個100Gb RoCEv2端口與其它7個晶片互聯;AMD MI300X通過7個AMD Infinity Fabric連結組建8卡全互聯拓撲。相比英偉達,盡管上述兩款晶片具有較強的GPU互聯能力,但由于缺少交換晶片,組建更大規模的縱向擴充叢集面臨挑戰。

為解決這一問題,陳佳媛提出四個攻關方向:

第一,突破算力間交換晶片性能瓶頸。提高卡間互聯帶寬,提升端口數量以滿足叢集算力縱向擴充更新需求;低延遲通信,減少GPU通信跳數,優化資料傳輸路徑。

第二,實作超百卡大規模實體連接配接。統籌單層、分層的網絡拓撲結構,提高GPU間高速通信設計的點對點連接配接能力,實作P2P連接配接;優化GPU記憶體管理、計算和通信的重疊,實作軟硬體協同。

第三,提升協定層面的互聯效率。在算法層面,兼顧流量控制和擁塞控制條件下,實作低延遲時間的傳輸性能;在協定層面,使主流協定滿足傳輸需求;在資料包結構層面,保證資料包格式同時滿足多種AI應用需求。

第四,要保持智算縱向擴充過程中的生态開放,其中包括保持遵循開放的行業标準,實作跨行業的廣泛合作和建立開放的資訊共享機制。

陳佳媛由此提出全向智感互聯的設計,其内涵包括:全方位連接配接,使GPU可以與任何一張GPU實作對等通信;優化的封包格式,采用對GPU友好的封包格式提高網絡使用率,設計具備動态規模感覺和簡化機制的協定;實作高效實體傳輸,優化解串器、控制器等實體層元件,引入CPO/NPO降低功耗并提高信号完整性;靈活擴充,當需要增加更多GPU以提升計算能力時,新的GPU可以無縫融入現有網際網路絡中。

陳佳媛将這種設計架構稱之為OISA——全向智感互聯。其關鍵技術特征在于架構、實體、鍊路、事務等幾個核心優化點。在架構層面優化拓撲結構,引入高性能交換晶片和GPU-交換 IP來提升P2P帶寬和研發效率。在實體層,改進信号傳輸技術,減少噪聲和幹擾,提高信号品質和完整性,采用更先進的實體媒體提高資料傳輸效率,優化高速高能效的電互聯接口解串器 IP。在鍊路層,優化錯誤檢測和快速恢複技術,減少資料傳輸中的丢包和重傳,采用多個實體鍊路提供更高的帶寬和備援路徑。在事務層,精簡事務層協定,降低開銷,提高資料處理速度,重定義封包頭,增加GPU辨別提高傳輸效率。

作者丨姬曉婷編輯丨張心怡美編丨馬利亞監制丨連曉東