天天看點

為AI大模型打破算力瓶頸,騰訊雲的第三次網絡架構進化

作者:雲科技時代雜志
為AI大模型打破算力瓶頸,騰訊雲的第三次網絡架構進化

毫無疑問,2023年正式進入了AIGC元年。從2019年3億參數的Bert打開了預訓練大模型之門,到2020年1750億參數GPT-3,再到2021年1.6萬億參數的Switch Transformer,以及2022年底正式上線的ChatGPT,人類就此打開了AI預訓練大模型的神奇之門。經濟學家們認為, AI預訓練大模型将為人類生産力的提升帶來了顯著和深遠的影響。

預訓練大模型的底座是高性能的算力叢集。各大雲廠商紛紛為大模型“風暴”的到來,更新自家的算力 “底座”。今年4月,騰訊雲釋出了新一代HCC高性能計算叢集,能為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。。

6月26日,騰訊雲進一步披露了與HCC高性能計算叢集背後的網絡底座“星脈”。“星脈”也是騰訊雲資料中心網絡架構的第三次進化,從第一代網際網路服務到第二代雲服務再到第三代大規模算力驅動,騰訊雲網絡經曆了标準化資料中心網絡、超大規模資料中心網絡以及高性能計算網絡三代進化。可以連接配接10萬張GPU卡的“星脈”,也代表了騰訊雲網絡技術自研的全面進化,為AI大模型的高效訓練和産品化打通了“星辰之力”。

騰訊雲資料中心網絡架構

作為全球及中國的頭部雲廠商之一,目前騰訊雲在全球26個地理區域營運70個可用區,同時部署了超過2800個CDN加速節點,全網帶寬資源儲備超過200T。

騰訊雲網絡包括雲網絡(即Overlay網絡)和基礎網絡(即Underlay網絡)兩大部分。其中,雲網絡是架構在同一基礎網絡上的多個虛拟網絡,也就是在實體裝置上按需建立、互相隔離的虛拟網絡,并支援租戶以多種網絡方式接入虛拟網絡,雲網絡提供三大類虛拟網絡,其中ECN為外聯架構,主要是營運商和營運商的互聯,将終端使用者連進來,然後通過企業專線把企業使用者連到騰訊的資料中心。

基礎網絡是負責資料包傳統的實體網絡,由真實的交換機、路由器、防火牆等實體裝置構成,各裝置間通過路由協定實作互相之間的連通,主要包括DCN、DCI網絡。其中,DCN為資料中心内機器互聯,主要是資料中心的網絡,實作資料中心裡面超過10萬或者幾十萬伺服器的無阻塞連接配接;DCI主要是資料中心之間的互聯,主要實作一個城市多資料中心或者多個城市的資料中心進行互聯。

騰訊雲通過ECN、DCI、DCN三大網絡架構,把使用者和業務伺服器連接配接起來,并将數百萬台伺服器連接配接起來。其中,騰訊雲資料中心網絡DCN通過自研網絡作業系統、智能網管平台、自動化營運系統和網絡控制器等自研技術,實作了按需擴充的超大規模資料中心網絡,打造了亞洲最大規模資料中心網絡,覆寫100+園區,接入近200萬伺服器,全自動化營運體系保證秒級自愈。

騰訊資料中心網絡進化三大階段

騰訊雲副總裁王亞晨介紹,從最初的騰訊網絡到“星脈”高性能計算網絡,騰訊資料中心網絡技術共經曆了三代架構的三大階段。

為AI大模型打破算力瓶頸,騰訊雲的第三次網絡架構進化

在2006年的時候,騰訊的伺服器總量低于一萬台,那時騰訊網絡架構基本上是通過商業裝置和人工運維連接配接及打通整個網絡,主要依靠人工方式運維。到2010年的時候,當時受QQ線上人數增長超過1億、伺服器規模增長超10萬的需求驅動,騰訊形成了由網際網路服務驅動的以南北向流量為主的第一代網絡架構。

當時,騰訊的伺服器量達到了10萬台,對于網絡的挑戰主要是快速傳遞,滿足使用者需求。騰訊提出标準化理念以及用工具支撐運維,建有标準的IDC網絡架構以及城域網和廣域網。在這一階段,騰訊通過與商業廠商的合作,通過商業裝置以及工具支撐,快速将網絡規模擴充到10萬台左右,流量達到1個T,采用自動化工具進行監控,網絡時延在10-100毫秒之間,丢包率為0.1%-2%,負載率達30%,網絡故障處理效率基本上在15分鐘完成。

2015年以後,騰訊雲快速發展。特别是2018年騰訊伺服器接近100萬台,這個時候面臨的主要是品質挑戰。随着騰訊雲的快速發展,騰訊伺服器規模達到了近200萬台,資料中心内部的網絡流量形成規模,這時進入了騰訊雲的第二代網絡架構,即南北向流量和東西向流量兼顧的架構。在這一階段,因為騰訊雲上承載了很多第三方租戶,第三方租戶對于品質非常敏感,一旦騰訊網絡抖動将會形成對第三方業務的放大效應,甚至是災難性影響。

要降低裝置故障對網絡的影響,首先就是采用多平面,降低單一裝置對整個故障的影響,其次在有了多平面、裝置變多後,再用大型商業路由器則成本較高,騰訊開始定制網絡裝置,将路由器轉為定制的交換機。但因為交換機的性能方面弱于路由器,于是騰訊引入了控制器的概念,對轉發面和控制面進行分離,把控制面提到控制器上,讓控制器能夠了解全網的流量情況以及全網拓撲,并且計算出最優的路由下發到交換機。在這個階段,騰訊基本上采用定制裝置、多平面以及SDN進行路由器控制,網絡時延降低到500納秒到1毫秒,丢包率為0.1%-1%,負載率為30%,任何故障可在一分鐘之内得到恢複。

2019年到2020年的時候,随着騰訊雲的快速發展以及使用者的迅猛增加,騰訊虛拟機規模達到了千萬,IPV6導緻路由條目達到億級,不論是交換機、路由器以及還是網絡設計處理能力都達到瓶頸,騰訊雲于是引入X86網關叢集作為控制面,同時在骨幹網引入了X86 NFV裝置,用控制器完整地排程全網路由以及全網的配置分發和計算,騰訊也加速了網絡裝置的疊代及提高可運維性,主要采用白牌硬體以及開源作業系統,形成了全自主研發、可控的網絡體系,這為2020年和2021年進入算力時代的網絡架構變革做好了準備。

在算力時代的網絡架構變革到來之際,騰訊的網絡系統已經從傳統網絡系統過渡到分布式網際網路業務系統,故障實作零容忍及自愈能力,基礎設施可靠性以及可運維性及能力達到了新的階段。

大模型驅動資料中心網絡變革

“星脈”高性能計算網絡是騰訊雲網絡的第三代架構,在千億和萬億參數預訓練大模型新需求所驅動下形成了新型網絡架構,也就是超大東西向(資料中心内)流量架構。在高性能計算網絡架構下,騰訊網絡時延進一步降至10-40納秒,丢包率達到0,負載率超過90%。

為AI大模型打破算力瓶頸,騰訊雲的第三次網絡架構進化

騰訊雲副總裁王亞晨表示,AI大模型的訓練計算特點是需要在各個計算節點完成單個批次的梯度計算,然後需要在網絡中同步這些梯度值并更新模型參數。簡單了解,這就是大規模的并行計算。但面對千億、萬億參數規模的大模型訓練,僅僅是單次計算疊代内梯度同步需要的通信量就達到了百GB量級,還有各種并行模式、加速架構引入的通信需求,使得傳統低速網絡的帶寬遠遠無法支撐GPU叢集的高效計算。

AI大模型對網絡的需求為:大帶寬、高使用率和無損網絡。面向AI大模型訓練需求,騰訊推出的業界領先的高性能計算網絡架構——星脈。星脈網絡在極緻高性能上,采用3.2T超帶寬接入、多軌道聚合流量網絡架構、異構網絡自适應通信優化技術、定制加速通信庫,建構了3.2T ETH RDMA網絡,實作了AI大模型通信性能的10倍提升,GPU使用率40%提升,通信時延降低40%,星脈單叢集規模支援單 POD 1.6萬個GPU 節點,最大支援10萬級 GPU 叢集組網。基于全自研網絡硬體平台,網絡建設成本降低30%,模型訓練成本節省30%~60%。

簡單了解,星脈網絡将叢集分為了Block、Pod和Cluster三個分級架構,每Block支援256個GPU,每Pod支援16-64個Block(4000-1.6萬張GPU,也就是典型的叢集規模),每Cluster支援最大16個Pod(6400-2.56萬張GPU)以實作大規模擴充。星脈網絡通過AI流量定制互聯達到性能最大化,采用高性能RDMA網絡實作GPU記憶體直接資料傳輸,采用無阻塞胖樹(Fat-Tree)架構,確定多個層級間資料傳輸的均勻分布,同時能靈活擴充網絡規模,星脈單叢集規模支援1.6萬個GPU節點(支援10萬級GPU組網)。而星脈的 3.2T帶寬,指的是每個計算節點(GPU伺服器)之間的帶寬,達到了業界最強。

星脈網絡采用了多個自研“絕活兒”。首先,星脈網絡采用的自研端網協同協定TiTa,提供更高的網絡通信性能,特别是在滿足大規模參數模型訓練的需求方面。TiTa協定内嵌擁塞控制算法,以實時監控網絡狀态并進行通信優化,使得資料傳輸更加流暢且延遲降低。其次是開發了高性能集合通信庫TCCL、以及多軌道流量聚合架構、異構自适應網絡通信等,以協調計算資源和網絡資源,充分利用計算節點間通信與處理能力,改善整個系統的性能和計算效率。

超大規模以太RDMA網絡的工程實踐

要實作高性能計算網絡,就必須要處理GPU-GPU記憶體資料直接通信的問題。NVIDIA通過NVLink、NVLink Switch以及增強RDMA以太網和InfiniBand高性能網絡等方式,實作不同規模GPU叢集的GPU-GPU直通,但價格高昂,絕大多數廠商難以負擔。而對于公有雲來說,以太網是當下的标配,是以通過自研方式增強RDMA以太網就成為最佳選擇。

為AI大模型打破算力瓶頸,騰訊雲的第三次網絡架構進化

衆所周知,RDMA為業務帶來了大帶寬低延遲時間,但同時其複雜多樣化的配置也往往被帶來了網絡營運問題。在星脈網絡之前,據統計高達90%的高性能網絡故障都是網絡配置錯誤導緻的問題,主要原因就是網卡配置套餐多——取決于架構版本、業務類型和網卡類型等。

簡單了解,要大規模實踐RDMA以太網就必須要采用正确的運維方式和工具。為此,騰訊雲自研了高性能網絡營運平台。實作了端網部署一體化以及一鍵故障定位,提升高性能網絡的易用性,進而通過精細化監控與自愈手段,提升網絡可用性,為極緻性能的星脈網絡提供全方位營運保障。

在自研高性能網絡營運平台提供的端網一體部署能力下,大模型訓練系統的整體部署時間從19天縮減到4.5天,并保證了基礎配置100%準确。在一鍵故障定位方面,目前已支援“性能不足”、“業務丢包”、“配置異常”、“連接配接建立不成功”四個次元的一鍵故障定位,輕松為高性能網絡業務提供一鍵自檢,健康可視等功能。而面對高性能業務的秒級自愈要求,騰訊網絡轉變了避障思路,既然需求起源于業務,那麼就将避障的主動權交于業務。為此,騰訊雲推出了秒級故障自愈産品——“HASH DODGING”。

星脈作為面向AI大模型定制優化的高性能計算網絡架構,與最新代次GPU、高性能存儲架構強強聯合,共同打造騰訊雲新一代HCC高性能計算叢集。前期測試顯示,星脈網絡可以實作AllReduce通信性能提升13倍,All-to-All通信性能提升11倍,通信性能抖動減少85%。

展望未來:騰訊雲的星脈網絡還在不斷進化,這就是星脈2.0——融合網卡更新+交換機更新+網絡能力更新+GPU高速互聯接口,打造下一代性能更高的計算叢集。整體來說,星脈高性能計算網絡的推出,是騰訊雲面對大模型訓練市場需求的快速響應,也是騰訊長期自研以太網全棧技術的大內建。沒有前期自研網絡技術的投入,也就沒有今天騰訊第三代網絡架構的進化。做大模型時代的“賣鏟人”,騰訊正通過自研技術解開算力的“緊箍咒”。(文/甯川)

繼續閱讀