天天看點

高同慶:打造大國算網重器,開啟AI+時代新篇

作者:科技雜談

——高同慶副總經理在2024算力網絡大會上的主旨演講

高同慶:打造大國算網重器,開啟AI+時代新篇

三年前,中國移動首次提出算力網絡理念并付諸産業實踐,走出一條以網強算的新路徑。我們規劃了“泛在協同”“融合統一”“一體内生”三個發展階段,推動算力網絡取得廣泛共識,原創技術多點突破,核心理念和關鍵技術融入國家規劃,上升為國家戰新産業方向。目前,中國移動初步建成基礎設施、技術能力和産品服務全面領先的算力網絡,圓滿完成算力網絡1.0既定目标,全面啟動2.0階段工作,加速邁向3.0新階段。

随着新一輪科技革命和産業變革,人工智能正更新為支撐經濟社會轉型不可或缺的基礎設施和核心能力,加速從“+ AI”向“AI+”轉變。算力将發揮越來越重要的作用,成為AI+時代産業更新、生産力躍遷的關鍵驅動力。

第一,國家提出新要求,全國一體化算力體系加快建構。随着東數西算走向縱深,算力網絡發展按下加速鍵。中國移動作為國資央企責無旁貸,具備以網強算的路徑優勢、規模優勢和技術優勢,成為推動大陸算力高品質發展的中堅力量。

第二,産業迎來新格局,智能算力正成為新增長極。随着生成式人工智能的不斷發展,帶動智算需求指數級增長,算力結構正在發生系統性質變,智能算力将成為未來主流的計算形态。

第三,技術呼喚新變革,算力技術迎來跨越式發展。為了解決算力的供需沖突,一是摩爾定律的延續,讓單點算力盡可能提升;二是擴充法則的應用,建構更大規模的算力叢集,支撐模型參數從萬億躍升至十萬億;三是換道技術的湧現,各種流派百花齊放,推動計算科學飛速發展。

面向AI+時代,目前算力網絡正處于融合統一的攻堅期、泛在智能的躍升期、原創技術的突破期、産業生态的塑造期。中國移動将不忘推動算力成為社會級服務的初心,實作算力網絡三個“質變”更新。

一是以“大規模智算叢集”為核心,實作基礎設施的質變。以網強算次元更新,從宏觀拓展到微觀,從算間拓展到算内,需要以智算叢集為中心進一步優化網絡基礎設施,全面發揮叢集效應,推動AI從單點突破邁向泛在智能。二是以“算網大腦智能更新”為核心,實作編排排程的質變。推動算網大腦納管更多資源,支撐更豐富業務,實作智能化更新、一體化排程、規模化商用。三是以“融合統一算龍頭”為核心,實作服務模式的質變。豐富任務式服務和智算服務,打造行業應用标杆,讓千家萬戶、千行百業真正實作即取即用的“算力自由”。

下一步,中國移動将加速邁向3.0,全面支撐人工智能+。

第一,建構大叢集,打造AI模型訓練的超級工廠。

中國移動将持續優化算力網絡資源總體布局,面向AI+更新,今年将商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡叢集,總規模近6萬張GPU卡,充分滿足大模型集中訓練需求;随着大模型訓練逐漸轉向大規模行業應用,泛在的推理需求持續湧現,我們将按需在1500個邊緣節點部署推理算力,形成“中心大叢集、邊緣廣分布、中訓邊推、訓推一體”的智算網絡。同時,中國移動将持續完善技術體系,推進全棧技術創新。一是突破堵點,加快邁向超萬卡叢集。面向機間互聯,原創提出全排程以太技術體系(GSE),建構無阻塞、高帶寬、超低延遲時間的新型智算中心網絡,對标國際主流的IB和UEC方案,形成中國自主的技術體系,今年将開展GSE中試,加速GSE關鍵技術和産業成熟;面向卡間互聯,打造标準開放總線級互聯架構,提升GPU卡間高帶寬、低延遲時間通信能力,實作互聯拓撲和協定的全棧級優化,為标準開放的新型智算互聯貢獻中國方案。二是多元異構,建構融合開放的大算力生态。持續推進一雲多芯的多樣算力,打破AI晶片生态豎井,今年将更新“芯合”算力原生平台,支援智算應用在更多GPU晶片的快速遷移,同時還支援面向大模型的分布式異構混訓,打破目前大模型僅能在單廠家單型号叢集訓練的局限。我們将進一步實作雲底座關鍵技術突破,更新“大雲天元”作業系統,商用推廣雲原生資料庫、新一代SDN網絡,今天也會推出新一代磐石DPU,打造一機多芯的磐石伺服器,全面使能多樣化智能算力。三是訓推一體,打造開箱即用AI服務。自研智算平台,打造模型訓練“自動化生産線”,實作AI模型全生命周期服務,支援全棧、全自主可控、全地域的資源統一管理排程,提供一站式開發工具箱,支援萬卡并行訓練、千卡15天以上穩定訓練、分鐘級斷點續訓,確定大模型訓得好、快、穩。

這次大會期間,我們将釋出《面向超萬卡叢集的新型智算技術白皮書》,與業界分享超萬卡叢集設計方案,共同應對技術挑戰,助推國内智算基礎設施邁上新台階。

第二,暢通大動脈,建構AI資料流轉的資訊高速。

面向近期,中國移動充分發揮網絡優勢,加快打通國家樞紐叢集間的400G高速互聯鍊路,開放網絡彈性能力,打造大帶寬、廣覆寫、低延遲時間、智能化的新型運力網,進一步降低業務西遷成本,積極為國家樞紐節點内、節點間公共傳輸通道貢獻力量。面向中長期,我們主導形成了“高通量、低延遲時間、一體化”的多層次融合網絡方案。一是高通量,針對長距離網絡傳輸性能瓶頸,研發新型高吞吐傳輸協定,今年将與國家天文台、華大基因等開展聯合驗證,實作長距離、高吞吐、高彈性、廣覆寫和高安全的資料快遞服務;二是低延遲時間,曆時五年,聯合産業攻關反諧振空芯光纖技術,設計自主結構,相比傳統實芯光纖傳輸時延降低33%,今年将啟動20公裡中試驗證,明年預計突破100公裡,有望改變光通信産業格局;三是一體化,依托中國移動在IETF主導的算力路由技術體系,在路由中引入算力向量,實作聯合優化排程,樣機驗證顯示,業務平均時延降低15%,系統容量提升30%,今年将繼續推動算力路由原創技術标準化,與視訊監控、雲渲染等場景結合開展中試驗證。

  1. 建強大中樞,研發AI任務分發的最強大腦。

算網大腦是基于網絡的分布式算力任務分發系統,我們将在去年試商用基礎上,實作全網排程能力和智能化水準的全面躍升。一是功能躍升,今年将納管自有智算中心、邊緣節點,廣泛吸納三方算力,實作通智邊一體排程和全局資料高效流通,開放算網能力超過3000個,多要素能力實作ABCDNETS全覆寫;二是性能躍升,日排程次數從千萬次提升到億次,引入能效等更多元度,攻關解決高維組合優化問題,基于新型的并行算法,加快實作分布式跨叢集任務的排程;三是服務能力躍升,融合九天算網大模型,創新AI互動式訂購,實作個性化、智能化互動新模式,不斷賦能算網新服務,推動屬地化、單一式傳統産品向全局化、複合式産品更新。

今天我們也有算網大腦相關的釋出和行動,今年将加速算網大腦規模化商用,深度參與全國一體化算力網的國家級、樞紐級排程平台建設,打造行業最強大腦。

第四,塑造大産業,繁榮AI應用創新的熱帶雨林。

一是壯大創新根基,目前我們已經初步建構了覆寫國際、國内的算力網絡标準體系,特别是在IETF成立的算力路由工作組,正在主導算網一體總體架構設計。未來中國移動将進一步健全标準體系,加快推動智算中心網絡等标準制定,為全球标準貢獻更多中國方案。

二是繁茂創新枝葉,加快未來産業、創新聯合體打造,深化算力并網、任務式服務模式創新,激活AI+應用創新活力,完善商業模式。同時,中國移動正在加快建構集約高效的數聯網,打造資料流通基礎設施,讓高品質資料“活起來、動起來、用起來”,支撐資料要素全國統一大市場。到今年底,中國移動算力并網規模将突破5EFLOPS,算網服務樣闆間超過80個,數聯網交易節點落地超10個。

三是培育創新沃土,将以跨地域、跨主體的全國性算力網絡試驗科學裝置為基礎,聯合更多産學研合作夥伴,支撐建設全國一體化算力網原型試驗場,孵化更多算力網絡新技術、新應用。同時,中國移動作為國資央企,将發揮在智算資源、安全、營運等方面優勢,助力全社會友善、快捷的使用智算服務,打造一片AI創新的熱帶雨林。

我們正處于一個偉大的時代,算力網絡和人工智能的交相輝映,正在催生人類文明發展新的拐點,我們不僅是見證者,更是參與者、創造者,它将重塑我們的生産、生活和社會治理方式,将會惠及在座的每一個人。中國移動願意攜手廣大合作夥伴,全力以赴擁抱AI+時代,把握戰新産業和未來産業發展機遇,為推進中國式現代化作出更大貢獻。