萬卡叢集：從"打群架"到"群體突破"還有多遠？

能建是實力，用好是關鍵。

從ChatGPT到Sora、Claude 3、Llama 3等，大模型參數從百億級、千億級邁向萬億級，模型能力更加泛化，大模型之戰如火如荼，國産大模型迫切需要加速追趕甚至超越。與此同時，也引發一波新的AI算力荒，從此前的晶片緊缺，上升為AI算力叢集級的“饑渴症”。

資料顯示，到2030年，通用算力将增長10倍，達到3.3 ZFLOPS，而智能算力将增長500倍，達到105 ZFLOPS。作為人工智能産業的算力底座，智算中心未來3～5年有望保持超30%的高速成長，千卡叢集、萬卡叢集将是其完成躍遷的重要跳闆。

破解AI算力荒。

“叢集”彌補“單卡”

解決AI算力荒的必要路徑

随着大模型訓練與推理需求呈幾何級數爆發，再加上GPU供應存在幹擾，算力晶片的供求缺口相當巨大。“N卡難求”引發搶購、囤貨風潮，而市場中也很難找到直接對标國際巨頭單卡性能的産品。

業内專家指出，當下大陸智能算力處于嚴重的供不應求狀态，大模型對算力需求增長已遠高于單顆AI晶片性能的增長速度，通過叢集互聯彌補單卡性能不足，也許是當下最值得探索并解決AI算力荒的必要路徑。考慮到多重因素疊加，以及與國産大模型共同打造AI産業商業閉環的需求，建構自主創新的本土化叢集更是迫在眉睫。

顯而易見，千卡叢集、萬卡叢集是滿足AI算力需求的抓手。萬卡叢集是什麼？即使用數萬個GPU建構大型人工智能算力叢集，用以訓練基礎大模型。這種叢集有助于大幅壓縮大模型訓練時間，以實作模型能力的快速疊代，并及時對市場趨勢作出應對。

從千卡叢集到萬卡叢集時代，從卷“模型”到卷“應用”，業界亟需高效、可持續的算力，跑通多種新計算任務。在這些多樣化新需求驅動下，将晶片系統組合起來的新型萬卡智算中心，成為滿足大模型産業落地的重要抓手，也成為大國AI較量的标配新基建。

據了解，國内智算中心未來搭建叢集主要有兩個選擇。一是采用國内外晶片“混搭”的叢集模式，這對系統優化的要求很高，“最短的木闆”可能影響算力整體效率的充分釋放，預計需要較長時間的磨合才能找出最優路徑；二是采用國産化的叢集模式，在“能用”的基礎上向“好用”不斷邁進，以紮實的實踐成果開辟自主創新的廣闊天地。

過去一年，大陸千P級智算中心的智算基建布局集中爆發。目前，國内的萬卡智算中心仍處于發展初期，面臨發展挑戰。是以，留給國産AI算力的機會，就在千卡以上的叢集，以及背後的軟體生态。正如中國工程院院士鄭緯民所說，建構國産萬卡系統，雖然很難，但很必要。

大模型專家、國内首個AI大模型産業賦能中心營運人劉秋江告訴《通信産業報》全媒體記者，目前有越來越多的萬卡算力叢集正在建設中，但是目前多數大模型還處于訓練疊代和小規模使用階段，無法滿足可見的産業需求，未來還需要建設更多的算力叢集。

萬卡叢集競賽

科技公司“打群架”

目前，算力叢集已經從千卡叢集邁入了萬卡叢集、五萬卡叢集。甚至有預測，GPT-6未來部署的時候，需要70萬～80萬張卡才能支撐。

攢算力這個事，各大科技公司各顯神通，紛紛投入研發，提出各種在萬卡叢集上用于訓練大模型的方案。不過，能設計并有效運作萬卡叢集的企業，仍掌握在少數手中。

在國際大舞台上，諸如Google、Meta、微軟、亞馬遜、特斯拉等科技巨頭，正利用超萬卡叢集推動其在基座大模型、智能算法研發，以及生态服務等方面的技術創新。如Google推出超級計算機A3 Virtual Machines，擁有26,000塊Nvidia H100 GPU，同時基于自研晶片搭建TPUv5p8960卡叢集。Meta在2022年推出擁有16,000塊Nvidia A100的Al研究超級叢集Al Research Super Cluster，2024年初又公布了2個24576塊Nvidia H100叢集，支援下一代生成式Al模型的訓練。

在國内，通信營運商、頭部網際網路企業、大型AI研發企業、AI初創企業等均在超萬卡叢集的建設和使用過程中不斷推動技術革新。

營運商作為國家算力基礎設施建設的中堅力量，正加速推進超萬卡叢集智算中心的建設。中國移動不久前透露，今年将商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡叢集，總規模近6萬張GPU卡。中國電信于今年上半年在上海規劃建設到達15,000卡、總算力超4500P的國産萬卡算力池，将是國内首個超大規模國産算力液冷叢集，也是業内領先的全國産化雲智一體公共智算中心。中國聯通上海臨港國際雲資料中心在今年内将建成中國聯通首個萬卡叢集。

在網際網路企業中，除了位元組跳動是出了名的“N卡”收集狂，阿裡巴巴、百度有部分自研晶片外，絕大多數的大中小廠都在瘋狂尋找國産AI算力的替代方案。其中，位元組跳動搭建了一個12,288卡Ampere 架構訓練叢集，研發MegaScale 生産系統用于訓練大語言模型。螞蟻集團在去年透露已建成萬卡異構算力叢集。2023年，騰訊推出的高性能網絡星脈，具備業界最高的3.2T通信帶寬，為AI大模型帶來10倍通信性能提升，基于騰訊雲新一代算力叢集HCC，可支援10萬卡GPU的超大計算規模。

此外，2023年7月，華為宣布昇騰AI叢集全面更新，叢集規模從4000卡叢集擴充至16,000卡，是業界首個萬卡AI叢集，擁有更快的訓練速度和30天以上的穩定訓練周期。2023年，科大訊飛建設成首個支援大模型訓練的超萬卡叢集算力平台“飛星一号”。2024年2月4日，“深圳開放智算中心”點亮“深圳市智慧城市算力統籌排程平台”，這一平台将助力深圳打造10萬卡“最強算力”叢集。

值得一提的是，對于伺服器廠商而言，當其身量已不再局限于提供單一硬體産品時，而是綜合性解決方案，這些解決方案可能包括伺服器、存儲、網絡、安全等方面，同時還需要針對下遊客戶的具體需求，提供定制方案。伺服器作為算力資源的重要載體，也正成為企業建構萬卡叢集的核心一環。

那麼，從千卡、萬卡到十萬卡、百萬卡，為什麼智能計算仍在“堆卡”？這個趨勢是可持續的嗎？

顯然，算力叢集卡的數量非線性增加，會帶來更大的不穩定性和協作難度。新華三專家認為，與“N卡”相比，我們單卡單打獨鬥有差距，但多卡叢集服務不能打群架。

從“建”到“用”

萬卡叢集如何跨越五重挑戰

關于叢集建構的路徑探索，業界存在不少誤區。有人認為“叢集就是一堆伺服器疊在一起”，也有人覺得“叢集的算力越大越好”，這些觀點都低估了複雜系統的運作難度，以及多要素協同突圍的重要性。

專家認為，叢集建設無疑是一個系統性複雜工程，從GPU到伺服器再到組成叢集，涵蓋計算、存儲、網絡、軟體，以及大模型排程等多個環節，對算力使用率、穩定性、可靠性、可擴充性、相容性等名額都有頗高的要求，市場期待出現能滿足智算中心全棧式需求的“交鑰匙”解決方案。

毋庸置疑，在大算力結合大資料生成大模型的發展路徑下，超萬卡叢集的搭建不是簡簡單單的算力堆疊，要讓數萬張GPU卡像一台“超級計算機”一樣高效運轉，超萬卡叢集的總體設計應遵循堅持打造極緻叢集算力、堅持建構協同調優系統、堅持實作長穩可靠訓練、堅持提供靈活算力供給、堅持推進綠色低碳發展五大原則。

圖檔來源：《面向萬卡叢集的新型智算技術白皮書》

然而，大模型時代，算力即生産力，市場巨頭們以數萬GPU建構AI叢集仍處于起步階段。《通信産業報》全媒體記者在采訪中發現，萬卡叢集建設還面臨五重挑戰。

第一，極緻算力使用效率的挑戰。叢集規模的線性提升并不直接導緻算力的線性提升，卡間和節點間的網際網路絡、軟體和硬體的适配調優是追求叢集極緻有效算力的關鍵挑戰。《面向超萬卡叢集的新型智算技術白皮書》指出，需要運用系統工程方法，通過對超萬卡叢集網絡的精細化設計、軟硬體全棧整合優化，綜合提升叢集算力使用效率。

第二，海量資料處理的挑戰。千億模型的訓練需要對PB量級的資料集使用多種協定進行處理，未來萬億模型的訓練對checkpoint的讀寫吞吐性能更是要求高達10TB/s，現有智算存儲系統在協定處理、資料管理、吞吐性能等方面面臨諸多挑戰。需要通過協定融合、自動分級等一系列技術手段，提供高效的資料共享和處理能力，滿足大模型訓練的需求。

第三，超大規模互聯的挑戰。随着模型規模擴大，需要多機多卡互聯和并行訓練政策，這對網絡的ScaleOut（橫向拓展）和ScaleUp（縱向拓展）提出極高要求。這就要求參數面網絡和資料面網絡需要具備高帶寬、低延遲時間和高可靠性，支援大模型訓練的資料吞吐和計算需求。

第四，確定大規模訓練過程中的高穩定性與高效率。在大模型訓練中，穩定性至關重要，因為失敗和延遲雖然常見，但代價高昂。縮短故障恢複時間刻不容緩，因為一旦有掉隊者，不僅影響個人進度，更可能導緻數萬GPU的整體作業受阻。需要精心優化，確定訓練穩定高效，來應對這一挑戰。

第五，國産軟體生态挑戰。雖然國内已經有30多家公司推出了國産AI晶片，但使用者不太喜歡用，核心問題就是國産軟體生态不好。目前，程式設計架構、并行加速、通信庫、算子庫、AI編譯器、程式設計語言、排程器、記憶體配置設定系統、容錯系統、存儲系統等關鍵軟體，雖然都有國産的，但仍有不足之處，比如功能不夠齊全、性能不夠好、生态貢獻者不夠繁榮等。

随着AI大模型參數越來越大，對算力叢集提出了更高依賴和渴求，要求算力廠家在晶片、調優、通信，以及系統性開發和管理等多方面下功夫，進而真正跑出大模型産業發展的加速度。

采寫：胡媛

圖表：曙念

編輯、校對：胡媛

指導：辛文

智算中心："引燃"算力新基建（附産業圖譜）

智算中心産業圖譜：典型企業及競争力一覽誰在第一方陣？營運商進擊智算中心

一線談：智算中心的挑戰與應對

一線談：如何發揮智算中心優勢

政府工作報告首提“全國一體化算力體系”：為什麼？如何建？“東數西算”兩年：全國一體化算力網呼之欲出

專家解讀：如何建構全國一體化算力體系？

專家解讀：加快建構全國一體化算力網絡