天天看點

砸錢建設萬卡叢集,中國企業在追趕

作者:钛媒體APP
砸錢建設萬卡叢集,中國企業在追趕

圖檔來源@pixabay

目前,萬卡或超萬卡叢集已經成為各大科技巨頭競相部署的重要戰略資源。

钛媒體此前對萬卡叢集有過解釋,其核心就是在于将數萬塊GPU計算單元組合建構的高性能計算資源。而GPU作為推動AI訓練和推理的關鍵力量,誰手裡握有最多的GPU卡,也被視作AI的頭号玩家。根據CB Insights的資料,英偉達占據了機器學習GPU市場約95%的份額,超過有4萬家企業采購了英偉達GPU,像Meta、微軟、亞馬遜、谷歌總計貢獻了其40%的收入。以Meta為例,2022年公布推出擁有1.6萬塊英偉達A100的Al研究超級叢集,2024年初公布建成2個24576塊GPU叢集,目标到2024年底建成包括35萬塊英偉達H100 GPU的基礎設施。

事實上,不隻是國際廠商,國内廠商也在此前大量采購GPU推進萬卡叢集建設。尤其在今年以來,三大營運商也相繼公布了對超萬卡叢集的部署。例如,中國移動今年将商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡叢集,總規模近6萬張GPU卡;中國電信于今年上半年在上海規劃建設到達15,000卡、總算力超4500P的國産萬卡算力池,将是國内首個超大規模國産算力液冷叢集;中國聯通表示,在今年内将在上海臨港國際雲資料中心,建成中國聯通首個萬卡叢集。

在這其中已經出現幾類關鍵角色,分别是通信營運商、頭部網際網路、AI頭部廠商。值得關注的是,近些年新成立的基礎大模型AI創企也在借助雲大廠的投資租用或購買算力,類似于OpenAI+微軟的合作模式。钛媒體梳理了國内外頭部廠商公布的資料,如圖所示。

砸錢建設萬卡叢集,中國企業在追趕

如今,模型參數量從千億邁向萬億,大模型對底層算力的需求進一步更新。以GPT-4為例,其擁有16個專家模型共1.8萬億參數,一次訓練需要在大約25000塊英偉達A100上訓練90到100天,對算力的消耗之大可見一斑。在這樣的背景下,分散的小規模算力資源顯得捉襟見肘,而萬卡叢集則能夠提供足夠的算力支援,滿足大模型訓練的需求。

另外,AI應用快速發展的時代,帶來了與過去傳統通用計算完全不同的挑戰。單純看以CPU為中心無法滿足當下需求,以GPU、TPU等AI專用晶片組合的多元算力體系正被業界反複提及和驗證。

伺服器廠商聚焦互聯

對于從事基礎設施服務企業而言,自然有其解法。例如現階段,AI需求市場對資料中心的建設要求,正影響伺服器企業的判斷和打法。圍繞客戶對AI場景展開,以政企、營運商以及頭部網際網路行業為主,并逐漸拓展到更多行業領域。事實上,這種商業動因也促使伺服器企業與上遊更多的硬體夥伴展開密切配合。

其中一項核心要素是聚焦面向晶片互聯技術。因為能夠實作單個伺服器内部晶片高速直通,是大規模算力叢集高效協同的基礎。

新華三集團進階副總裁、雲與計算存儲産品線總裁徐潤安與钛媒體App交流談到,從伺服器整機角度來考慮,也需要跟上市場的發展。新華三希望做更加開放的平台,做上遊GPU廠商合作夥伴的最佳選擇,利用自身網絡優勢,對網絡通信的了解,幫助更多GPU廠商,将算力互聯互通實作得更好。

在他看來,過去,大家的目标可能是做更強算力的單顆晶片,現在會從另一個角度努力,怎樣将晶片做成更大叢集,同時使得叢集的通信效果更高,叢集的處理能力更強。

徐潤安注意到,不同地域間的叢集互聯,最大挑戰在于地域之間的延遲問題。評估後認為,超過上千公裡延遲,在大規模訓練中其實對大模型訓練産生急劇下降,按照目前的廣域網技術是無法解決的。

為此新華三提供的科學計算算力排程平台傲飛3.0,實作了跨叢集統一管理,将訓練任務進行切分,将合适的子任務放在合适的近端或遠端子產品叢集實作。但是單一模型、單一子任務是很難實作這種操作的。

砸錢建設萬卡叢集,中國企業在追趕

以新華三目前跟某高校的聯合項目算網大腦為例,為解決各地算力資源排程問題,該算網大腦對整個計算資源進行統一池化管理,并且可視化算力資訊、排程任務數等。在排程任務配置設定中,按親和性原則,就近資源任務安排在既有空閑,和改任務排程有密切關聯的叢集部署,進而實作資源效率利用的最大化。同時利用确定性的網絡技術,確定時延在一定範圍内,既能夠解決任務排程資源在各個中心的配置設定問題,也能解決整個叢集協同的作用。

建設萬卡叢集的中企路徑

考慮到萬卡叢集建設難度,不少國内企業正拉通伺服器、晶片等基礎設施服務提供商共同解決這一棘手難題。

在技術層面,首先需要實作大規模的高效率訓練。由于模型訓練需要分布到多個GPU上,并且GPU之間需要進行大量通信以推動進展,是以如何實作高效的模型分布式訓練和通信是萬卡叢集面臨的重要挑戰之一。其次,還需要在大規模上實作訓練的高穩定性。由于建構AI訓練叢集需要設計非常複雜的網絡結構,但問題是,一旦叢集規模擴大,帶寬帶來的系統可靠性就會急劇下降,這往往會導緻訓練過程中斷,訓練成本顯著增加。是以,如何確定整個訓練過程的高效穩定是萬卡叢集需要解決的另一個關鍵問題。

除此之外,國内企業還受上遊英偉達A100 GPU晶片供貨緊張的影響。盡管國産AI晶片在這兩年取得長足進步,但在整體性能和生态建構方面仍存在一定差距。現階段企業仍主要依賴英偉達GPU及配套裝置實作,中國企業對于萬卡叢集的建設仍處于起步階段。

因而,怎樣建構一個基于國産生态體系、技術領先的萬卡叢集,在極緻算力使用效率、海量資料處理、超大規模互聯、高能耗高密度機房設計等方面存在諸多挑戰。

結合《面向超萬卡叢集的新型智算技術白皮書》提出的超萬卡叢集核心設計原則,能夠發現中國企業需要在計算、存儲、網絡、平台及機房配套等領域做出努力。

砸錢建設萬卡叢集,中國企業在追趕

例如,白皮書針對上述提及的晶片互聯問題也進行了詳細闡釋,提出基于Scale-up互聯打造單節點算力峰值,以及基于Scale-out互聯将單叢集規模推高至萬卡以上,兩者疊加進而建構超萬卡叢集的大算力底座。

其實這段解釋也将Scale-up和Scale-out兩種不同的堆卡方式進行了區分。

據钛媒體App了解,目前英偉達更倡導Scale-up,其建構的NVlink提供了一種高效可擴充的晶片間通信協定,允許所有GPU同時全速實時通信。企官方産品從NVL36和NVL72更新到NVL576,即從原先的36個或72個GPU,一下子擴充至576個GPU。這實際上進一步優化了Scale-out互聯的難題,針對的就是目前客戶建構萬卡叢集的問題。如亞馬遜、谷歌、微軟和甲骨文都已經計劃在其雲服務産品中使用NVL72設計的叢集。

那麼回到國内生态,面向大模型訓推場景帶來的萬卡叢集算力需求,如實作單個伺服器内部晶片高速直通,以及大規模算力叢集高效協同?

新華三集團智慧計算産品線首席産品經理鄭會平補充,異構融合将是未來大的發展方向,這意味着将存在如何快速排程異構資源的挑戰。同時,管理萬卡叢集資源還需要在業務層面實作拉通。

結合白皮書也能夠梳理出針對GPU卡間通信的解決思路:一是推進超越單機8卡的超節點形态伺服器,二是引入面向Scale-up的Switch晶片,以優化GPU南向的互聯效率和規模;三是優化GPU卡間互聯協定以實作通信效率躍升。國内智算産業正以自身的優勢背景走出不一樣的路。(本文首發于钛媒體APP, 作者|楊麗,編輯 | 蓋虹達)

繼續閱讀