天天看點

AI網絡新突破,阿裡雲将牽頭制定下一代智算網絡架構國際标準

作者:微笑

文/楊劍勇

自ChatGPT誕生以來,全球人工智能發展再躍升一個台階,進入AI大模型時代。但大模型參數量和訓練集規模大幅增加,僅靠GPU晶片單體算力提升已不能滿足需求,業界目光轉向系統架構層面的創新。其中,底層核心技術——網絡,成為關鍵突破口,全球科技公司展開了一場最激烈的AI網絡技術追逐賽。

在此背景下,中國AI網絡迎來了新突破。最新消息稱,阿裡雲自研的HPN7.0高性能AI智算叢集網絡,被國際學術界認可,成為SIGCOMM 頂會50餘年曆史上第一篇相關論文。就在昨日,國際超以太網聯盟UEC公布了新一屆技術委員會名單,阿裡雲成為唯一入選的中國公司,将牽頭與微軟、Meta等共同制定下一代AI網絡架構标準 。

AI網絡新突破,阿裡雲将牽頭制定下一代智算網絡架構國際标準

阿裡雲領銜,中國底層技術搶得AI下半場先機

最近一年,AI大模型爆火,而一個看似與AI完全不相關的國際開放組織UEC,卻成為了科技巨頭們争相加入、最炙手可熱的組織。

在2023年7月,Linux基金會聯合發起成立超以太網聯盟(Ultra Ethernet Consortium,簡稱UEC)開放組織,緻力于打造面向AI時代的超大規模新型網絡技術及系統。基于目前以太網的開放、可互操作、高性能、全通信堆棧架構,滿足HPC和AI對高帶寬和低延遲需求。

簡單來說,超以太網聯盟就是在研發AI基礎設施網絡,以更好地支撐大模型訓練和推理。這是AI技術領域最關鍵的底層技術,是以也吸引到全球最有實力的科技公司加入,微軟、Meta、AMD、Intel、思科等等都是成員。

更為重要的是,超以太網聯盟還承擔國際技術标準制定的工作,這對于AI底層技術及上層應用的未來發展具有戰略性意義。在超以太網聯盟中,設有專門的技術委員會,負責制定技術路線圖,把控核心技術及方向,協同推進各小組工作,并統籌所有技術提案及标準制定。

就在昨日,超以太網聯盟技術委員會新增3名成員,阿裡雲成為入選的唯一中國公司,将與微軟、Meta、AMD、博通等其他12名成員,共同推進開放網絡系統及核心技術的研發及标準制定,打造下一代AI網絡基礎設施。

這是中國公司在超以太網聯盟的最新突破。值得注意的是,阿裡雲在UEC技術委員會領銜,包括華為、位元組、百度、新華三等中國公司都是UEC聯盟中的重要成員。中國公司和中國技術正形成合力,在AI下半場角力中,發揮越來越重要的作用。

AI網絡的中國新實踐,有望取代谷歌成為新範式

生成式AI、大模型在全球如火如荼的發展,繼而對算力需求也将大幅提升。來自信通院的資料顯示,2023年全球計算裝置算力規模為1369EFlops。大陸算力規模已達全球第二,且增速高于全球。

為了提升算力高效運載能力,2023年10月大陸印發《算力基礎設施高品質發展行動計劃》提到,不僅要強化算力接入網絡能力,還要提升樞紐網絡傳輸效率,包括加快400G/800G 高速光傳輸網絡研發部署,推進算力基礎設施高品質發展。

在此背景下,中國公司積極展開了一系列AI基礎設施建設的前沿探索,而最新的成果,就來自阿裡雲。阿裡雲提出的HPN7.0架構被國際通信網絡領域頂會SIGCOMM錄用接收,成為首篇AI高性能網絡架構的學術論文。

SIGCOMM是計算機網絡領域資曆最老的頂級學術會議,從計算機教科書裡的TCP/IP網絡協定到雲資料中心經典架構,SIGCOMM見證了衆多計算機網絡關鍵技術的誕生與發展。

谷歌關于資料中心網絡架構Jupiter,就是通過SIGCOMM樹立了全球行業标杆,成為CPU時代最具代表性的網絡架構。如今,阿裡雲HPN7.0新架構接棒,專家認為極有可能成為GPU時代網絡架構的新範式。

HPN7.0針對大模型訓練場景下規模大、大流多、突發強烈、穩定性需求高的特點,創新性地設計了“雙上聯+多軌+雙平面”的網絡架構,并配合最新一代的51.2Tbps單晶片以太網交換機和400G高性能網卡,自研Solar-RDMA和ACCL通信庫,實作了單層千卡、兩層萬卡的高性能和高穩定互聯。

基于HPN7.0的網絡新架構,可支援高達10萬卡量級的叢集可擴充規模,高效連接配接異構計算資源,突破單一性能晶片瓶頸,真正讓雲計算成為一台智能的超級計算機。

前不久阿裡雲釋出通義千問2.5版本大模型,中文性能全面趕超GPT-4Turbo,就是基于HPN7.0高性能網絡叢集訓練而成。

GPU突圍戰,中國企業扛起開源開放系統大旗

HPN7.0的成功實踐,證明了通過網絡技術等底層系統架構的優化創新和異構計算資源整合,同樣能支撐起超大規模參數的AI大模型訓練。

通過體系創新,放大硬體潛能,形成從上往下的降維打擊,這一技術疊代思路,在當下國際競争中極具戰略意義。更為難得的是,它完全扣準了全球主流科技巨頭的技術選擇。

事實上,目前 AI高性能網絡有兩個主要技術線路,一條是以英偉達主導的Infiniband體系,但這一架構相對封閉,可以了解為,基于英偉達GPU的InfiniBand基本變成了英偉達的私有協定,無法充分利用目前繁榮的以太網生态。

另一條則是UEC聯盟所主導的開源開放标準體系,包括AMD、Intel、思科、博通等晶片和硬體公司都是創始成員,就是希望通過開源開放的技術合作促進創新,與英偉達在GPU為主的AI時代分庭抗禮,是以也被成為AI網絡領域的蘋果(對應英偉達)與安卓(對應UEC聯盟)之争。

這無疑是中國技術的戰略新機會。當年,國産智能手機崛起,與開源的安卓系統密不可分。依賴于開源技術,中國手機從整機制造,到作業系統,再到目前的晶片,正逐漸推動從上至下的全面自研,繼而貢獻于國際開源社群,對全球的手機技術進步同樣作出了突出貢獻。

有理由相信,随着中國AI自研技術積累和突破日益增多,以及阿裡雲等中國公司在開放的UEC聯盟中發揮越來越重要的作用,在AI這個未來必争的技術高地上,中國的底氣會越來越足,聲音也會越來越響亮。

楊劍勇,福布斯中國撰稿人,表達觀點僅代表個人。緻力于深度解讀物聯網、雲服務、人工智能和智能家居等前沿科技。

繼續閱讀