天天看點

助攻AI大模型,騰訊雲星脈高性能計算網絡首次完整披露

作者:智東西
助攻AI大模型,騰訊雲星脈高性能計算網絡首次完整披露

智東西

編譯 | Glu

編輯 | 李水青

智東西6月27日消息,昨天下午,騰訊雲在北京舉辦了一場面向AI大模型的高性能網絡溝通會,在現場首次完整披露了其自研的星脈高性能計算網絡。據稱,星脈網絡具備3.2Tbps業界最高互聯帶寬,能提升40%的GPU使用率,節省30%~60%的模型訓練成本,還讓AI大模型通信性能提升10倍。

同時,基于騰訊雲新一代算力叢集HCC,星脈網絡可支援10萬卡的超大計算規模。

AI新時代,大模型成為AI領域最火熱的話題,各大科技公司紛紛入局,騰訊公司也不例外,繼6月19日公布其行業大模型研發進展後,騰訊雲副總裁王亞晨、騰訊雲資料中心網絡總監李翔于今日與智東西等媒體官宣了“星脈網絡”實作全新更新,并分享了騰訊雲網絡研究的發展曆程。

王亞晨稱:“星脈網絡是為大模型而生。它所提供的大帶寬、高使用率以及零丢包的高性能網絡服務,将助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業大模型的訓練效率,在雲上加速大模型技術的疊代更新和落地應用。”

助攻AI大模型,騰訊雲星脈高性能計算網絡首次完整披露

演講嘉賓:騰訊雲副總裁王亞晨

助攻AI大模型,騰訊雲星脈高性能計算網絡首次完整披露

演講嘉賓:騰訊雲資料中心網絡總監李翔

一、AI大模型3大網絡需求:大帶寬、高使用率、無損網絡

目前,AI大模型的訓練參數已飙升至萬億級别,如此龐大的訓練任務無法由單個伺服器完成,而需要大量GPU伺服器組成算力叢集,互相協作完成任務。

這些伺服器通過機間網絡相連接配接,不斷交換資料。是以,高性能網絡具有至關重要的地位,它有利于讓算力叢集更加快速、準确地完成大規模的訓練任務。

大叢集不等于大算力,相反,GPU叢集規模的擴大還會引發額外的通信開銷。因為傳統網絡架構下,資料傳輸時會通過多層協定棧,需要反複停下來檢查、分揀、打包,導緻通信效率低下。

也就是說,網絡層級越多,緻GPU叢集通信性能将越低。現在爆火的生成式AI大模型需要運用千億、萬億參數規模進行訓練,這個訓練過程中通信占比最大可達50%,而傳統低速網絡的帶寬無法支撐。

在這個問題的解決上,業界通常會引入RDMA技術(GPU之間直接通信),這是一種高性能、低延遲的網絡通信技術,能夠允許計算節點之間直接進行資料傳輸,減少中間環節。

但光靠RDMA技術還遠遠不夠,傳統網絡協定也将制約GPU叢集的運作效率。傳統網絡協定也很容易導緻網絡擁塞、高延時和丢包,而僅0.1%的網絡丢包就可能導緻50%的算力損失,最終造成算力資源的嚴重浪費。

王亞晨幽默地将傳統網絡協定喻為“交通管理系統”:“這讓所有人都在一條大馬路上行走,自然會導緻交通堵塞。”

二、3.2Tbps帶寬,支援10萬卡叢集組網

基于以上問題,騰訊雲在交換機、通信協定、通信庫以及營運系統等軟硬體方面進行更新,推出了自研的大模型專屬高性能網絡“星脈”。

“帶寬”決定了能夠同時傳輸的資料,“拓撲”是節點裝置間的連接配接方式,決定了組網規模的大小。在這兩項硬名額上,騰訊雲稱星脈皆達到了業界最高水準。

助攻AI大模型,騰訊雲星脈高性能計算網絡首次完整披露

在硬體方面,星脈網絡自研白盒交換機,這是一種軟硬體解耦的開放網絡裝置,采用四層解耦體系,包括接入、轉發、路由、管控系統;騰訊雲還自研了網絡作業系統,包括網絡OS與網管平台,建構了互聯底座,實作自動化部署和配置。

在軟體方面,騰訊雲自研的TiTa網絡協定,能夠實時監測并調整網絡擁塞,TiTa網絡協定能夠提升40%的帶寬負載,還能提供低延時無損網絡,實作高負載下的0丢包,使叢集通信效率達90%以上。

王亞晨将其與傳統網絡協定對比,稱:“這是讓有不同需求的人走不同的路,就不會導緻堵塞了。”

此外,騰訊雲還為星脈網絡設計了高性能集合通信庫TCCL,融入定制化解決方案,使系統實作了微秒級感覺網絡品質。結合動态排程機制合理配置設定通信通道,可以避免因網絡問題導緻的訓練中斷等問題,讓通信時延降低40%。

王亞晨将其比喻為“導航系統”,優化後的集合通信就像有了導航一樣,可以快速找到最優路徑。

為確定星脈網絡的高可用,騰訊雲自研端到端全棧網絡營運系統。它可以讓大模型訓練系統的整體部署時間從19天縮減至4.5天,保證基礎配置100%準确;通過端網立體化監控與智能定位系統,它可以進行離線故障診斷、線上故障實時告警,讓整體故障的排查時間由天級降低至分鐘級;此外,它具有秒級的故障自愈能力,端側會主動發起路徑選擇,能夠極速恢複網絡故障。

三、3代演進,17年耕耘,網絡硬軟體全自研

根據騰訊雲官方資料,目前,騰訊雲在全球26個地理區域營運70個可用區,同時在70多個國家和地區部署了超過2800個CDN加速節點,全網帶寬資源儲備超過200T。

而在星脈網絡技術更新的背後,是騰訊資料中心網絡曆經3代技術演進、17年耕耘的成果。

助攻AI大模型,騰訊雲星脈高性能計算網絡首次完整披露

第一代是網際網路驅動時期。資料中心網絡流量主要由使用者通路資料中心伺服器的南北向流量構成,網絡架構以接入、彙聚、出口為主。這一階段主要使用了商用網絡裝置,搭建标準化資料中心網絡,支撐QQ線上人數增長超過1億,伺服器規模增長超10萬。

第二代是雲服務驅動時期。随着大資料和雲計算的興起,伺服器之間的東西向流量逐漸增多,雲租戶對網絡産生了虛拟化和隔離的要求。資料中心網絡架構逐漸演變為同時承載南北向和東西向流量的雲網絡架構,騰訊雲建構了全自研網絡裝置與管理系統,打造超大規模資料中心網絡,伺服器規模近200萬台。

第三代是大規模算力驅動時期。随着AI大模型的出現,騰訊雲在國内率先推出高性能計算網絡,采用東西向、南北向流量的分離架構。建構了獨立的超大帶寬、符合AI訓練流量特征的網絡架構,并配合自研軟硬體設施,實作整套系統的自主可控,滿足超強算力對網絡性能的新需求。

日前,騰訊雲釋出的新一代HCC高性能計算叢集,正是基于星脈高性能網絡打造,可以實作3.2T超高互聯帶寬,算力性能較前代提升3倍,為AI大模型訓練構築可靠的高性能網絡底座。

結語:面向AI大模型,騰訊星脈網絡打助攻

參數達到千億、萬億級别的AI大模型尤其看重網絡性能,它需要大帶寬、高使用率、無損的網絡來幫助它高效地完成訓練任務。以此為契機,騰訊雲基于過往17年的網絡布局經驗與技術成果,研發了助攻AI大模型的星脈網絡。星脈網絡具備3.2Tbps帶寬,可支援10萬卡叢集組網,能讓AI大模型通信性提升10倍。

自OpenAI于去年推出ChatGPT後,各方勢力紛紛入局AI大模型,千模大戰一觸即發。騰訊公司上周了公布其行業大模型的研究進度,騰訊雲不“卷”參數,而聚焦到具體産業端,關注AI大模型的落地。此外,他們積極建構高性能網絡以助攻AI大模型。此次溝通會中,王亞晨還透露騰訊雲正在積極探索下一代高性能網絡,緻力于建構更強算力的計算叢集。

繼續閱讀