助攻AI大模型，騰訊雲星脈高性能計算網絡首次完整披露

智東西

編譯 | Glu

編輯 | 李水青

智東西6月27日消息，昨天下午，騰訊雲在北京舉辦了一場面向AI大模型的高性能網絡溝通會，在現場首次完整披露了其自研的星脈高性能計算網絡。據稱，星脈網絡具備3.2Tbps業界最高互聯帶寬，能提升40%的GPU使用率，節省30%~60%的模型訓練成本，還讓AI大模型通信性能提升10倍。

同時，基于騰訊雲新一代算力叢集HCC，星脈網絡可支援10萬卡的超大計算規模。

AI新時代，大模型成為AI領域最火熱的話題，各大科技公司紛紛入局，騰訊公司也不例外，繼6月19日公布其行業大模型研發進展後，騰訊雲副總裁王亞晨、騰訊雲資料中心網絡總監李翔于今日與智東西等媒體官宣了“星脈網絡”實作全新更新，并分享了騰訊雲網絡研究的發展曆程。

王亞晨稱：“星脈網絡是為大模型而生。它所提供的大帶寬、高使用率以及零丢包的高性能網絡服務，将助力算力瓶頸的突破，進一步釋放AI潛能，全面提升企業大模型的訓練效率，在雲上加速大模型技術的疊代更新和落地應用。”

演講嘉賓：騰訊雲副總裁王亞晨

演講嘉賓：騰訊雲資料中心網絡總監李翔

一、AI大模型3大網絡需求：大帶寬、高使用率、無損網絡

目前，AI大模型的訓練參數已飙升至萬億級别，如此龐大的訓練任務無法由單個伺服器完成，而需要大量GPU伺服器組成算力叢集，互相協作完成任務。

這些伺服器通過機間網絡相連接配接，不斷交換資料。是以，高性能網絡具有至關重要的地位，它有利于讓算力叢集更加快速、準确地完成大規模的訓練任務。

大叢集不等于大算力，相反，GPU叢集規模的擴大還會引發額外的通信開銷。因為傳統網絡架構下，資料傳輸時會通過多層協定棧，需要反複停下來檢查、分揀、打包，導緻通信效率低下。

也就是說，網絡層級越多，緻GPU叢集通信性能将越低。現在爆火的生成式AI大模型需要運用千億、萬億參數規模進行訓練，這個訓練過程中通信占比最大可達50%，而傳統低速網絡的帶寬無法支撐。

在這個問題的解決上，業界通常會引入RDMA技術（GPU之間直接通信），這是一種高性能、低延遲的網絡通信技術，能夠允許計算節點之間直接進行資料傳輸，減少中間環節。

但光靠RDMA技術還遠遠不夠，傳統網絡協定也将制約GPU叢集的運作效率。傳統網絡協定也很容易導緻網絡擁塞、高延時和丢包，而僅0.1%的網絡丢包就可能導緻50%的算力損失，最終造成算力資源的嚴重浪費。

王亞晨幽默地将傳統網絡協定喻為“交通管理系統”：“這讓所有人都在一條大馬路上行走，自然會導緻交通堵塞。”

二、3.2Tbps帶寬，支援10萬卡叢集組網

基于以上問題，騰訊雲在交換機、通信協定、通信庫以及營運系統等軟硬體方面進行更新，推出了自研的大模型專屬高性能網絡“星脈”。

“帶寬”決定了能夠同時傳輸的資料，“拓撲”是節點裝置間的連接配接方式，決定了組網規模的大小。在這兩項硬名額上，騰訊雲稱星脈皆達到了業界最高水準。

在硬體方面，星脈網絡自研白盒交換機，這是一種軟硬體解耦的開放網絡裝置，采用四層解耦體系，包括接入、轉發、路由、管控系統；騰訊雲還自研了網絡作業系統，包括網絡OS與網管平台，建構了互聯底座，實作自動化部署和配置。

在軟體方面，騰訊雲自研的TiTa網絡協定，能夠實時監測并調整網絡擁塞，TiTa網絡協定能夠提升40%的帶寬負載，還能提供低延時無損網絡，實作高負載下的0丢包，使叢集通信效率達90%以上。

王亞晨将其與傳統網絡協定對比，稱：“這是讓有不同需求的人走不同的路，就不會導緻堵塞了。”

此外，騰訊雲還為星脈網絡設計了高性能集合通信庫TCCL，融入定制化解決方案，使系統實作了微秒級感覺網絡品質。結合動态排程機制合理配置設定通信通道，可以避免因網絡問題導緻的訓練中斷等問題，讓通信時延降低40%。

王亞晨将其比喻為“導航系統”，優化後的集合通信就像有了導航一樣，可以快速找到最優路徑。

為確定星脈網絡的高可用，騰訊雲自研端到端全棧網絡營運系統。它可以讓大模型訓練系統的整體部署時間從19天縮減至4.5天，保證基礎配置100%準确；通過端網立體化監控與智能定位系統，它可以進行離線故障診斷、線上故障實時告警，讓整體故障的排查時間由天級降低至分鐘級；此外，它具有秒級的故障自愈能力，端側會主動發起路徑選擇，能夠極速恢複網絡故障。

三、3代演進，17年耕耘，網絡硬軟體全自研

根據騰訊雲官方資料，目前，騰訊雲在全球26個地理區域營運70個可用區，同時在70多個國家和地區部署了超過2800個CDN加速節點，全網帶寬資源儲備超過200T。

而在星脈網絡技術更新的背後，是騰訊資料中心網絡曆經3代技術演進、17年耕耘的成果。

第一代是網際網路驅動時期。資料中心網絡流量主要由使用者通路資料中心伺服器的南北向流量構成，網絡架構以接入、彙聚、出口為主。這一階段主要使用了商用網絡裝置，搭建标準化資料中心網絡，支撐QQ線上人數增長超過1億，伺服器規模增長超10萬。

第二代是雲服務驅動時期。随着大資料和雲計算的興起，伺服器之間的東西向流量逐漸增多，雲租戶對網絡産生了虛拟化和隔離的要求。資料中心網絡架構逐漸演變為同時承載南北向和東西向流量的雲網絡架構，騰訊雲建構了全自研網絡裝置與管理系統，打造超大規模資料中心網絡，伺服器規模近200萬台。

第三代是大規模算力驅動時期。随着AI大模型的出現，騰訊雲在國内率先推出高性能計算網絡，采用東西向、南北向流量的分離架構。建構了獨立的超大帶寬、符合AI訓練流量特征的網絡架構，并配合自研軟硬體設施，實作整套系統的自主可控，滿足超強算力對網絡性能的新需求。

日前，騰訊雲釋出的新一代HCC高性能計算叢集，正是基于星脈高性能網絡打造，可以實作3.2T超高互聯帶寬，算力性能較前代提升3倍，為AI大模型訓練構築可靠的高性能網絡底座。

結語：面向AI大模型，騰訊星脈網絡打助攻

參數達到千億、萬億級别的AI大模型尤其看重網絡性能，它需要大帶寬、高使用率、無損的網絡來幫助它高效地完成訓練任務。以此為契機，騰訊雲基于過往17年的網絡布局經驗與技術成果，研發了助攻AI大模型的星脈網絡。星脈網絡具備3.2Tbps帶寬，可支援10萬卡叢集組網，能讓AI大模型通信性提升10倍。

自OpenAI于去年推出ChatGPT後，各方勢力紛紛入局AI大模型，千模大戰一觸即發。騰訊公司上周了公布其行業大模型的研究進度，騰訊雲不“卷”參數，而聚焦到具體産業端，關注AI大模型的落地。此外，他們積極建構高性能網絡以助攻AI大模型。此次溝通會中，王亞晨還透露騰訊雲正在積極探索下一代高性能網絡，緻力于建構更強算力的計算叢集。

助攻AI大模型，騰訊雲星脈高性能計算網絡首次完整披露

一、AI大模型3大網絡需求：大帶寬、高使用率、無損網絡

二、3.2Tbps帶寬，支援10萬卡叢集組網

三、3代演進，17年耕耘，網絡硬軟體全自研

結語：面向AI大模型，騰訊星脈網絡打助攻

繼續閱讀

華為鴻蒙系統相比于其他系統确實有很大的不同，不僅僅隻是帶來了更加流暢的體驗，最關鍵的是還實作了更多的可玩樂趣，尤其是跨設

#如何評價鴻蒙4#鴻蒙4終于來了！8月4日，華為正式釋出了最新手機作業系統HarmonyOS4。據之前爆料顯示，本次新系

華為的鴻蒙系統更新到了HarmonyOS4！而且據說第一批公測機型已經可以開始更新了！我猜很多人都迫不及待地要更新了吧！

Chipletz采用芯和半導體Metis工具設計智能基闆産品

國産AI大模型哪家強？十大次元橫評四款主流大模型！

華為新作業系統——HarmonyOS4簡直是太香了！🤤首先，這個系統真太易用了，小白使用者完全沒有壓力。👶而且，全新UI設

隐私保護也有新進展！華為HarmonyOS4全新應用管控中心，風險應用安裝管控、權限授予限制！最喜歡的還是應用跟蹤管理，

就在今天下午，大家期待許久的鴻蒙4.0，正式釋出了，而且根據華為公布的資料，如今接入鴻蒙生态裝置已經超過7億，開發者超過

鴻蒙4.0接入大模型，小藝全面更新！在今日下午的華為HDC2023開發者大會上，鴻蒙HarmonyOS4系統正式釋出。鴻

華為于8月4日在2023年開發者大會上正式釋出了全新一代的鴻蒙作業系統，即HarmonyOS4。這款備受關注的作業系統具

凡事都有輕重緩急，手機系統通知也應該遵守這條定律，尤其是那些手機APP多又沒有及時關掉應用系統通知權限的使用者在看到一大堆

鴻蒙4正式釋出，麒麟990系列機型有望率先更新！華為開發者大會8月4日-6日舉行，屆時鴻蒙4将正式釋出。鴻蒙4是新一代智

華為系統這回是真的猛！直接接入AI大模型，這也是相當炸裂了，如果說以後哪個語音助手最智能，那必然就是小藝了。隻不過到時候

每經操盤必知（周末版）丨華為釋出HarmonyOS 4作業系統，首次将AI大模型落地在華為手機多個系統應用上；《上市公司獨立董事管理辦法》釋出，22年來首次重大改革

AI大模型賦能折疊屏華為Mate X3首批更新HarmonyOS 4

華為鴻蒙4宣布接入AI大模型的時候，就讓我很激動，因為這不僅是首個搭載AI大模型的移動端作業系統，更是會大大地提升使用者的