天天看點

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

作者:中金研究
AI浪潮疊起,大模型高效訓練的達成需要以叢集内更大規模的資料承載量和高效的傳輸速率為前提,在上周召開的英偉達GTC 2024上,我們也明确觀察到網絡技術能力再更新趨勢,裸片、晶片、機櫃間互連方式革新不斷、帶寬提速;而SerDes作為以太網、PCIe、NVLink等通信協定PHY層的底層技術支撐,其單通道傳輸速率向224G甚至更高演進成必然趨勢。本文将從224G PHY&SerDes出發,展望AI資料中心内部有線通信的發展趨勢。

摘要

D2D:裸片間通信需求增加,先進封裝工藝不斷進階。D2D通信發生于晶片封裝内部,其接口實體層可采用高速SerDes或高密度并行架構。我們認為随着Chiplet等衆核異構滲透率逐漸提升,Die間通信需求有望進一步增加,對先進封裝技術、互連标準提出更高要求:1)先進封裝的精進如2.5D/3D封裝能夠為D2D連接配接帶來更高I/O密度,台積電CoWoS作為主流2.5D先進封裝技術廣泛應用于A/H100等AI晶片封裝;2)UCIe協定的出現有望助推Die間互連接配接口标準化以實作不同芯粒的自由整合,D2D互連生态有望趨于開放。

C2C:PCIe總線持續更新,NVLink引領片間通信新變革。主機闆總線是C2C通信的重要媒介,其中PCIe主要用連接配接CPU與高速外圍裝置,平均每三年更新一代标準,目前已疊代至6.0版本,16通道下可實作256GB/s的傳輸速率。在AI場景中,異構并行計算架構成為主流,我們觀察到GPU間、異構xPU間的C2C互連逐漸由PCIe主導向性能更強的專用互連技術演進,NVLink實作GPU間高速、低延遲時間的直接互連,并引入NVSwitch解決通訊不均衡,GTC 2024釋出新一代NVLink和NVSwitch,C2C互連雙向帶寬提升至1.8TB/s。

B2B:機間高速互連提升AI訓練效能,協定與硬體并進。我們認為,機間通信效率的提升需要協定和硬體端的配套支援:1)協定:從傳統的TCP/IP向RDMA演進以優化網絡性能,InfiniBand時延低、上線快、但生态相對封閉、價格高昂,RoCE性能略低于InfiniBand,然兼具成本效益和可擴充性,長期來看InfiniBand或與更新以太網平分秋色;2)硬體:接口傳輸速率需疊代上行,交換晶片作為核心硬體其性能面臨更新,我們預期SerDes向224G演進有望為102.4T交換晶片的面世提供底層支撐,助力實作1.6T網絡連接配接。

風險

AI大模型及應用發展不及預期,SerDes技術疊代不及預期。

正文

初探PHY:實體層功能及SerDes技術演進

何為PHY?

PHY(Physical Layer,實體層)位于OSI參考模型的最底層,連接配接資料鍊路層裝置(通常稱為MAC,即媒體通路控制)與實體媒體(如光纖、銅纜),承擔了将裝置上層數字信号和媒體上的模拟信号互相轉換的職能,PHY晶片(一種數模混合晶片)則是實作資料收發職能的重要硬體載體。

根據IEEE 802.3标準給出的實體層協定規範,PHY内部結構一般可拆解為3個子層(PCS、PMA、PMD)和2個接口(MII、MDI),具體功能子產品數量和職能細節受不同互連媒體及速率需求引出的不同通信标準影響。

► PCS(Physical Coding Sublayer,實體編碼子層):PCS位于實體層架構的最頂層。向上,PCS通過MII/GMII連接配接RS(協調子層),實作MAC層與PHY層之間的互連。PCS主要功能包括:1)線路編碼/解碼和加擾/解擾,以確定資料傳輸可靠、有序;2)補償上下行速率差異,以避免資訊混亂和錯誤;3)正向/前向糾錯(FEC),以降低噪聲對傳輸品質影響。

► PMA(Physical Medium Attachment,實體媒體連接配接子層):PMA的主要功能為串并轉換、确定鍊路狀态、恢複時鐘、檢測錯誤時間等。

► PMD(Physical Medium Dependent,實體媒體相關子層):PMD主要完成向MDI輸出信号、網絡變壓、光電轉換等功能。

圖表1:1000BASE-T1 PHY與OSI參考模型和IEEE 802.3 CSMA/CD區域網路模型的關系

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:1)1000BASE-T1标準的MAC接口為GMII(Gigabit MII),即支援千兆網的MII接口;2)≥1Gbps的背闆應用場景需要增加Auto-Negotiation

資料來源:IEEE官網,中金公司研究部

底層SerDes技術

SerDes為以太網、PCIe等資料通信協定提供實體層的底層技術支撐。SerDes是SERializer(串化器)/DESerializer(解串器)的簡稱,是一種主流的時分多路複用、點對點的高速串行通信技術,以太網、HDMI、PCIe、USB等高速串行鍊路資料通信協定的底層技術支撐均為SerDes。按照傳輸距離不同,SerDes可分為長/中/短距離的SerDes(LR/MR/VSR SerDes)、超短距離(XSR)SerDes和極短距離(USR)SerDes,分别用于背闆(如在Ethernet switch PHY中)、晶片-晶片(如在PCIe/CXL PHY中)、晶片-子產品(如在ODSP PHY中)、及裸片-裸片(如在Die-to-Die PHY中)等互連場景。

圖表2:各傳輸距離SerDes及其應用場景

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:Cadence官網,OIF,中金公司研究部

SerDes系統一般由發送端的串化器、驅動器和接收端的解串器、模拟前端組成,包含模拟電路和數字電路,通常內建在IP核中或以獨立晶片形式存在。SerDes最早的單通道資料率一般在1.25-3.125Gbps,目前國際上成熟應用的SerDes最高速率為單通道112Gbps,基于PAM4 ADC+DSP架構設計,于2022年實作商用落地。我們認為,SerDes單通道傳輸速率的提升和性能優化依賴于脈沖幅度調制、高速ADC、數字信号處理等多種技術的演進以及制造技術的更新。

► 脈沖幅度調制(PAM):先進的調制方式能夠增加單次脈沖(單個碼元)攜帶的bit數量,進而提升SerDes傳輸速率。例如,在NRZ(不歸零編碼)編碼下,每個碼元攜帶1個bit;在PAM4(第四代脈沖幅度調制)編碼下,一次脈沖可呈現4個電平,每個碼元攜帶2個bit,實作在相同帶寬條件下機關時間傳輸效率(比特率)提升一倍。

► 高速ADC:NRZ調制方式下,采用傳統的模拟前端即可,經過比對-均衡-采樣-解串後再進入數字域;而PAM4及更高調制方案下,電平數量的增加以及傳輸速率的提升帶來串擾、非線性、噪聲等問題,對接收端的采樣能力提出更高要求,鍊路設計中一般在模拟前端增加ADC(模數轉換器)将模拟信号先轉為數字信号,回報均衡、采樣和解串則均在數字電路中完成。

► 數字信号處理(DSP):PAM4 SerDes系統加入DSP以發揮時鐘恢複功能,通過生成所有可能的資料序列并和接收信号進行對比的方式識别最可能的傳輸序列,可有效補償增益誤差和時間偏移,同時增強系統對噪聲的抵抗力,提升資料傳輸效率和穩定性。

► 先進制程工藝:先進制程工藝的更新能夠幫助SerDes實作更低功耗和更高性能的互連,亦或推動新型架構的出現。各家晶片廠商陸續推出3nm制程SerDes,以滿足AI和其他高速網絡基礎設施對資料帶寬的更高要求。

為什麼需要更新到224G?

AI浪潮驅動資料處理量激增,牽引雲端算力需求提升。資料中心内部高速連接配接需求大幅增長,需要承載量更大的互連通道作為支撐。AI算力的提升,除了依靠單張GPU卡、SSD等核心硬體的性能更新,還需要更高的晶片間互連、片内互連能力作為有力支撐,進而實作多顆GPU的高效聚合、以及滿足GPU訪存和交換資料需求;而要提高整個AI叢集的算力使用率,還需要提升片外通信速度以最大化機關時間傳輸的資訊量,進而形成強大的叢集有效算力。是以,我們認為大叢集并不等于大算力,要實作AI叢集訓練效能的提升,闆上晶片間、片内Die間、及片外互連能力均需進一步更新。

比較I/O帶寬和計算單元算力,我們看到随着摩爾定律的放緩和半導體工藝趨近實體極限,I/O帶寬與算力之間的差距不斷擴大。随着晶圓疊代至5nm/3nm制程,半導體密度接近極限,研發成本增幅擴大,摩爾定律趨于放緩。進入後摩爾時代,Intel、AMD等晶片廠商均采用多Die拓展的技術路線,Multi-Die系統将多個異構裸片內建在單個封裝中,半導體數量可增加至數萬億個,處理器計算能力大幅提升。然而,由于I/O引腳數量存在實體極限,I/O速率的提升與算力增長速度不成比例,根據新思科技官網,半導體密度翻倍的同時,I/O性能僅提高了不到5%,資料傳輸能力一定程度上制約了晶片總算力的提升。

圖表3:I/O帶寬與算力之間的差距逐漸擴大

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:新思科技官方公衆号,中金公司研究部

綜上,我們認為,資料中心叢集持續擴容、互連帶寬需求日益攀升的背景下,互連接配接口實體層(PHY)标準向224G甚至更高傳輸速率演進趨勢加速确立。224G SerDes技術的突破也為片内、片外互連速度的提升奠定了基礎,224G SerDes的優勢展現在:以224G 以太網SerDes為例,單通道224G SerDes的應用能夠大大減少資料中心所需的線纜和交換機數量,進而優化網絡效率、并降低節點增加而導緻的額外通信成本。OIF CEI-224G架構采用CPO(光電共封裝)和OE(optical engine,光學引擎),縮短主機SoC與光學接口之間的電氣鍊路,根據新思科技官網,224G SerDes每比特功耗較112G降低約1/3。

224G SerDes面臨既定信道或距離類型下實作更高傳輸性能的挑戰。回顧以太網資料傳輸發展過程,基于NRZ調制的模拟型28G SerDes的奈奎斯特頻率為14G,56G/112G PAM4混合型SerDes的奈奎斯特頻率分别為14G、28G,而當SerDes速率提升至224G,奈奎斯特頻率需要翻倍至56G,引發更嚴重的鍊路損耗。此外,由于SerDes信号和幹擾源之間的通道隔離沒有得到改善,導緻信号串擾加劇等問題。同時,更高的資料傳輸速率亦對更低的每比特功耗提出更高要求。新思科技表示在224G速率下要達到上一代的性能水準,SerDes設計複雜程度增加了5倍。

224G SerDes PHY設計已啟動,商用部署程序有望加快。根據IP Nest,2023年已有幾款224G SerDes設計啟動,但224G SerDes客觀存在的設計複雜性、功耗限制、以及對更先進調制技術的需求等問題導緻其真正實施部署的難度較大,LightCounting預測首批224G SerDes将在2026年迎來部署上量,早期應用範圍包括重定時器和變速器、交換機、AI擴充、光子產品、I/O晶片和FPGA,成熟應用後有望延伸至更多資料需求領域。新思科技于2022年9月在ECOC 2022上首次示範224G SerDes,通過最小化模拟前端、在整個系統中引入大規模并行性和進階DSP技術實作高性能224G以太網PHY IP;Marvell在FQ4 2024業績電話會上表示,其下一代單通道200Gb/s速率的1.6T PAM DSP産品已經在客戶側進行認證,預計将于今年年底開始部署;博通在3月20日召開的基礎設施賦能AI投資者會議中表示其底層SerDes技術更新至單通道200Gb/s,基于3nm工藝制造。

圖表4:224G SerDes頻率、損耗及數量預測

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:奈奎斯特頻率是為防止信号混疊需要定義最小采樣頻率,實際應用的采樣頻率為奈奎斯特頻率的2倍,例如56G SerDes在NRZ方案下采樣頻率為28G,在PAM4下,由于每個脈沖含2個bit,采樣頻率為14G

資料來源:新思科技官網,LightCounting,IP Nest中金公司研究部

展望:AI資料中心内部有線通信發展趨勢

按照封裝層級劃分,資料中心内部有線通信由内至外可大緻拆解為3層,分别為:Die-to-Die、Chip-to-Chip、Board-to-Board通信。其中,Die-to-Die(裸片間)通信是級别最小的通信,發生在晶片封裝以内,實作晶片内部不同功能子產品間的資料交換;向外延伸,Chip-to-Chip(晶片間)通信實作伺服器主機闆上不同晶片間(如CPU-GPU)的資料溝通;在伺服器外部,Board-to-Board通信實作伺服器-交換機、交換機-交換機之間的資料傳輸,層層疊加形成資料中心叢集内部組網架構。

我們認為,AI浪潮疊起,超萬億參數量多模态大模型的高效訓練的達成需要以資料中心内更大規模的資料承載量和高效的傳輸速率為前提,叢集内部Die-to-Die、Chip-to-Chip、Board-to-Board互連能力的全方位提升已成為确定性發展趨勢。

圖表5:資料中心各層級通信示意

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:OIF,瀾起投資官網,Alphawave官網,中金公司研究部

展望#1:Die-to-Die

D2D通信是晶片封裝内部發生的裸片間超短距資料傳輸。D2D接口是裸片間資料傳輸的功能子產品,通常由一顆PHY晶片和一個控制器子產品組成。在實體層,裸片與裸片之間可采用高速SerDes架構或高密度并行架構,分别實作并行/串行資料傳輸,支援2D、2.5D、3D多種封裝結構。

基于Chiplet(芯粒)的衆核異構方案優勢衆多,Die間通信需求進一步增加。Chiplet将SoC拆解為實作特定功能的裸片,可複用不同制程的IP。Chiplet的優勢在于:1)良率:通過內建小面積晶片,減少了晶圓缺陷對良率的影響;2)成本:基于不同功能的IP可靈活選擇工藝制程,平衡性能和研發成本;3)算力:突破單芯面積限制,為半導體提供更多實體平台;4)存儲容量:Chiplet方案可以實作在單個封裝體内多次堆疊,在增加存儲容量的同時保持小型化;5)通信帶寬:Chiplet采用高密度、高速封裝和互連設計,能夠有效提升計算和存儲、計算和計算之間的帶寬與信号傳輸品質,緩解“存儲牆”問題。

Chiplet各裸片間的互連接配接口協定多樣。Chiplet裸片的互連接配接口協定設計需要考慮與工藝制程及封裝技術的适配、系統內建及擴充等複雜要素,同時需要滿足不同應用領域對機關面積傳輸帶寬、每比特功耗等性能名額的差異化要求,通常上述名額要求互相沖突,是以Chiplet互連接配接口與協定的設計難度較高。Chiplet接口互連協定可以劃分為實體層、資料鍊路層、網絡層以及傳輸層。其中,鍊路層及以上接口更多依賴沿用或擴充已有接口标準及協定;實體層的互連協定繁多,帶寬密度、傳輸時延、能耗等性能名額及實作工藝均存在差異。從連接配接方式來看,Chiplet在實體層有串行和并行兩種互連方式。

D2D互連标準的不統一影響Chiplet的進一步發展。Chiplet的自由拼接依托于Die間通信協定的開放統一,但目前D2D接口通常基于廠家自身互連需求開發,芯粒自由組合并通過SiP封裝的理想情景尚無法實作。我們認為,Chiplet的進一步發展很大程度上局限于裸片間通信PHY互連标準的不統一,面臨設計好的成品日後接口不比對、不同芯粒互連時資源浪費等問題。

圖表6:Chiplet實體層部分互連标準一覽

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:CSDN,半導體行業觀察,中金公司研究部

UCIe助力Chiplet接口标準化,D2D互連生态逐漸開放。2022年3月,英特爾、AMD、Arm、高通、三星、台積電、日月光等晶片廠商,以及Google Cloud、Meta、微軟等雲廠商共同成立Chiplet聯盟,聯合制定Chiplet通用高速互連标準,即UCIe(Universal Chiplet Interconnect Express)标準,英偉達于2022年8月宣布将支援新的UCIe規範[1]。根據IP Nest預測,基于UCIe的D2D IP設計的啟動數量遠高于其他。我們認為,在UCIe标準的推動下,來自不同廠商、但基于相同接口标準的Chiplet晶片有望通過先進封裝實作進一步整合,Chiplet生态體系有望逐漸完善。

圖表7:UCIe規範Chiplet實體層标準并實作性能提升

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:UCIe官網,IP Nest,中金公司研究部

先進封裝技術優化連接配接,提升Die間通信速度。傳統封裝方式主要基于導線将晶片的接合焊盤與基闆的引腳相連,實作電氣聯通,最後覆以外殼形成保護,主要方式有DIP、SOP、QFP等。由于Chiplet方案對比單片SoC犧牲了各功能子產品間的布線密度和傳輸穩定性,傳統封裝可能難以滿足Die間通信需求。先進封裝的出現優化了裸片間的連接配接方式,有效縮短Die間信号距離,同時提供了更高的連接配接密度和通信帶寬,提升通信品質并降低功耗水準。

先進封裝通過對點或層的布局取代引線,提升引腳連接配接密度。其中,點連接配接包括Bumping(凸塊)、TSV(矽通孔);層連接配接包括RDL(重布線層)和Interposer(中介層)。對點、層封裝技術進行組合運用,形成了Fan-out、WLCSP(晶圓級封裝)、Flip-chip(又可細分為FCBGA、FCCSP兩種倒裝)、2.5D/3D封裝、SiP(系統級封裝)等多種先進封裝形式。根據Yole預測,先進封裝在整體封裝市場的滲透率有望持續提升,到2025年先進封裝市場占比将升至49.4%;市場規模有望從2022年的443億美元擴容至2028年的786億美元,2022-2028年複合增長率達10%。從先進封裝類型來看,2.5D/3D封裝的市場增速領先,2022-2028 CAGR接近40%。

圖表8:各類先進封裝市場規模預測

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:Yole,中金公司研究部

頭部廠商加速先進封裝布局,拓展2.5D/3D封裝平台。全球先進封裝技術主要由台積電、Intel、三星等頭部廠商主導,其他封裝廠商逐漸跟進。以台積電為例,CoWoS(Chip On Wafer On Substrate)是先将晶片連接配接至矽晶圓,再将CoW連接配接至基闆,其核心在于應用矽中介層以及Bumping和TSV等技術替代傳統引線鍵合,提升引腳數量和互連密度。目前CoWoS等2.5D封裝方式廣泛應用于CPU、GPU、FPGA等晶片封裝,是基于Chiplet晶片封裝的主流方案。

凸點間距不斷縮小,Die間互連密度提升。我們觀察到,随着晶片在算速與算力上的需求持續提升,先進封裝不斷向功能多樣化、連接配接多樣化、堆疊多樣化發展,封裝形式對應的凸點間距越來越小,I/O密度和封裝內建度随之提升,同時也導緻封裝難度變大。對比各廠商技術,台積電和Intel的封裝能力較為領先。

展望#2:Chip-to-Chip

主機闆總線是C2C通信的重要媒介,實作闆上晶片間資料傳輸。AI場景中,以CPU+GPU為代表的異構并行計算架構成為主流,C2C互連技術逐漸由PCIe主導向多節點無損網絡演進。

PCIe是一種高速串行拓展總線标準,用于CPU與高速外圍裝置的連接配接。PCIe具有良好的向後相容性,平均每三年更新一代标準,對應單通道速率翻倍增長。處理器I/O帶寬平均每三年實作翻番,推動PCIe标準基本按照3年一代的速度更新演進。PCI-SIG于2003年正式推出PCIe 1.0版本,到2022年已疊代至6.0版本。2022年6月,PCI-SIG釋出PCIe 7.0前瞻性檔案,預計在保持相同編碼/調制方案的基礎上,傳輸速率再次翻倍至128GT/s(16通道下傳輸速率達512GB/s),完整标準規範将在2025年釋出。

PCIe 6.0将開始應用224G SerDes,經網卡轉換後可支援800G以太網。如前文所述,PCIe用于片内或機架内連接配接,以太網用于機架外連接配接,通過PCIe網絡接口卡(NIC)可以将PCIe轉換為以太網,再經過多層網絡交換機實作以太網結構。根據新思科技官網,4通道PCIe吞吐量與單通道以太網最高資料速率相比對,意味着x16 PCIe吞吐量等效于x4以太網端口帶寬。PCIe 5.0利用目前已成熟商用的單通道112G SerDes技術,逐漸成為HPC和AI伺服器場景中的主流總線;PCIe 6.0則将基于下一代224G SerDes,16通道下經過網卡轉換可高效支援800G以太網(4通道)端口,根據PCI-SIG,PCIe 6.0預計将于2025年前後開啟商用。

圖表10:PCIe各版本規格參數

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:Flit Mode*表示流控單元模式,以Flit為最小機關進行資料傳輸

資料來源:PCI-SIG官網,中金公司研究部

PCIe标準疊代過程中信号插損也随之增加,引入信号調理技術可有效改善信号品質。為應對愈演愈烈的信号插損問題,PCIe從4.0時期開始引入信号調理晶片:1)PCIe Retimer:Retimer是一種數模混合器件,其工作原理是通過内部嵌有的CDR電路提取輸入信号中的嵌入式時鐘,再使用未經衰減變形的時鐘信号重新傳輸資料,進而提升信号完整性并消除信号抖動影響。2)PCIe Redriver:通過發射端的驅動器和接收端的濾波器放大受損信号,實作對信号損耗的補償。對比來看,Retimer能夠實作比Redriver更優的降低信道損耗效果,但由于增加了資料處理過程時延有所拉長。PCIe Retimer在AI伺服器中應用廣泛,其市場規模有望擴容。Retimer晶片能夠提升伺服器、企業存儲、異構計算和通信系統中資料傳輸時信号的完整性,典型應用場景包括NV Me SSD、AI伺服器、Riser Card等。

CXL(Compute Express Link)協定基于PCIe實體标準,共享記憶體助力性能提升。2019年Intel主導并聯合Meta、谷歌等公司釋出新的互連協定CXL。CXL(CXL.io)運作在PCIe 5/6的實體層之上,具備和PCIe相當的實體及電氣接口特性,提供高帶寬,高可擴充性;同時,CXL提供額外協定(CXL.cache/mem)用于資料中心内裝置之間的記憶體互訪。2023年11月,CXL3.1新版本正式釋出,是對3.0版本的漸進性更新,提出采用新的可信執行環境并優化了結構和記憶體擴充器。CXL相比于PCIe的優勢在于:1)降低跨裝置通路延遲,通過CXL協定,CPU與GPU可以繞過PCIe協定進行記憶體資源共享,形成記憶體資源池,有效降低CPU與GPU之間的延遲;2)提升記憶體容量,連接配接CXL的附加裝置向CPU提供更多記憶體,低延遲CXL鍊路允許CPU将此額外記憶體與DRAM記憶體結合使用。

圖表11:CXL協定及規範标準

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:CXL官網,中金公司研究部

NVLink是專用于英偉達GPU之間的點對點互連協定。英偉達針對異構計算場景于2014年開發了NVLink技術,NVLink實作了GPU之間的直接互連,可擴充伺服器内的多GPU輸入/輸出(I/O),提供相較于傳統PCIe總線更加快速、更低延遲的系統内互連解決方案。NVLink 1.0的雙向傳輸速率為160GB/s,此後NVLink随着GPU體系結構的演進而同步疊代更新。3月19日的GTC 2024 Keynote上,英偉達釋出第五代NVLink高速互連方案,最高雙向總帶寬提升至1.8TB/s,較第四代提升一倍,約為x16 PCIe 5.0鍊路總帶寬的14倍。我們認為,英偉達第五代NVLink技術的推出顯著提升GPU間通信效率,有望從C2C互連層面進一步強化其AI晶片叢集計算性能。

NVSwitch是NVLink技術延伸的産物,解決GPU間通訊不均衡問題。GTC 2024大會上,英偉達釋出新一代NVLink Switch:單顆NVSwitch晶片采用台積電4NP制程工藝,支援72個雙向200G SerDes端口(應用224G PAM4 SerDes技術)。新一代NVLink Switch最多可實作576個GPU的互連,大幅擴充了NVLink域,聚合總帶寬提升至1PB/s,助力萬億級以上參數量AI大模型釋放加速性能。

圖表12:NVLink和NVSwitch各世代規格參數

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:“-”表示尚未披露公開資訊

資料來源:英偉達官網,中金公司研究部

NVLink-C2C将NVLink擴充至封裝級,借助先進封裝支援芯粒互連。NVLink-C2C基于SerDes和Link技術打造而成,可從PCB級內建、多晶片子產品(MCM)、矽中介層或晶圓級連接配接實作擴充。以GB200超級晶片為例,英偉達利用NVLink-C2C技術建構封裝級互連,Grace CPU與Blackwell GPU之間支援900 GB/s雙向帶寬的通信。

展望#3:Board-to-Board

AI大模型發展下,資料中心呈現兩個趨勢變化:1)網絡流量高增長,且東西向(即伺服器之間)流量占比大幅提高,根據思科預測,目前東西向流量占比或已達到網絡流量的80-90%;2)網絡架構逐漸走向多層不彙聚、少收斂、更具可拓展性的形态,如英偉達資料中心采用胖樹架構建構無收斂網絡,每一層網絡總帶寬保持一緻。我們在以往報告《AI浪潮之巅系列:InfiniBand VS以太網,智算中心網絡需求迎更新》中已詳細論述了AI需要什麼樣的資料中心網絡。

機間高速互連(B2B)是AI訓練效能提升的重要一環。我們認為,AI叢集訓練效率的提升,對機間通信效率提出更高要求,一方面,組網協定作為資料運力動脈需要配套更新,從傳統的TCP/IP向RDMA演進以優化網絡性能;另一方面,接口傳輸速率需持續疊代上行。

圖表13:智算中心相較傳統資料中心,對通信性能要求提升

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

資料來源:中國移動研究院,百度開發者中心,資訊化觀察網,中金公司研究部

RDMA(Remote Direct Memory Access,遠端直接記憶體通路)節省資料傳輸步驟,提升通信效率。目前主流RDMA方案包括三類,分别是InfiniBand、RoCE、iWARP。

► InfiniBand

InfiniBand從小衆超算市場逐漸成為大規模AI訓練叢集的優先選擇。2014年至今,在TOP100(全球超算排行100強)中,InfiniBand的占比顯著高于以太網,2020年後,InfiniBand的占比超50%。而對于AI大模型驅動的智算中心建設需求,InfiniBand憑借極高吞吐量、極低延遲、高可拓展性(最高能擴充到具有數萬個節點的叢集)、快速上線、調優和維護大規模網絡能力、無損網絡建構能力等特性較好地滿足上文提到的智算需求,在AI後端組網中的滲透率快速提升。

InfiniBand路線圖顯示,未來預期傳輸速度已規劃至3.2Tb/s。目前InfiniBand的傳輸速度為400Gb/s(4通道,8芯光纖模式下)。2023年11月,IBTA釋出XDR 800Gb/s InfiniBand的初始規範,最新路線圖顯示,XDR 800Gb/s将于2024年落地,單通道SerDes速率翻倍,支援XDR的網卡和交換機将提供每端口800Gb/s的傳輸速度,并支援1.6Tb/s端口速率的XDR交換機到交換機之間的連接配接;IBTA計劃在2026年、2030年将InfiniBand網絡性能繼續提升至GDR 1.6Tb/s、LDR 3.2Tb/s。

圖表14:InfiniBand路線圖

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:在4X(4通道)以Gb/s為機關表示鍊路速度

資料來源:InfiniBand Trade Association,中金公司研究部

InfiniBand組網優勢突出,但存有成本高昂、生态封閉等問題。目前InfiniBand市場呈現Mellanox(英偉達子公司)一枝獨秀的局面。InfiniBand組網需要使用的交換機、網卡等硬體産品僅英偉達一家可供應,從協定到軟硬體整個生态較為封閉,英偉達在産業鍊中的議價能力強,導緻通過InfiniBand協定部署的AI訓練和推理基礎設施的BOM成本高于以太網,據博通基礎設施賦能AI交流會[2],基于以太網RDMA協定搭建的計算叢集成本約為基于InfiniBand的50%或更低,我們認為InfiniBand在普遍性和經濟性上或存在一定欠缺。

► RoCE

RoCE性能接近InfiniBand,多廠商優化流控、擁塞管理。我們認為,RoCE方案的以太網性能逐漸接近InfiniBand,但和IB基于信用的流控機制不同,RoCEv2在基于PFC(基于優先級的流量控制)/ECN(顯式擁塞通知)/DCQCN(資料中心量化擁塞通知)的流控機制對傳統以太網絡進行改造來保證無損網絡時,可能出現PFC死鎖、擁塞彌漫等問題。華為、新華三、浪潮等廠商均推出了自己優化後的無損網絡解決方案。

多家科技巨頭聯合成立UEC,以聯盟形式打造高性能以太網。為應對InfiniBand部署率提升對以太網市場佔有率可能造成的沖擊,據Linux基金會,2023年7月,UEC(Ultra Ethernet Consortium,超以太網聯盟)由硬體裝置廠商博通、AMD、思科、英特爾、Arista、Eviden、HP和超大規模雲廠商Meta、微軟共同創立。自成立以來,UEC聯盟成員不斷擴大,彰顯開放性生态優勢。我們認為,雖然目前時點UET相關标準和技術還處于早期開發階段,未來随着技術的逐漸推廣與落地,UET有望超越RoCE協定,對标InfiniBand,帶領以太網網絡在智算領域滲透率提升。

小結:InfiniBand和RoCE各有優劣,AI訓練場景中InfiniBand協定先行,以太網+RDMA滲透加速。短期内由于算力資源緊張,部分廠商選擇英偉達代建資料中心,借助InfiniBand的特性快速上線網絡以訓練大模型;長期來看,我們認為随着智算叢集規模的持續擴容,AI大模型及應用廠商或傾向于尋求更具成本效益的網絡形式,疊加更多針對AI需求的以太網核心器件上市、UEC聯盟的逐漸成熟、RoCE針對AI網絡的不斷優化,能夠和現網大規模的IP網絡實作相容互通的更新高性能以太網方案需求有望加速釋出,在智算中心中的滲透率有望不斷增長。

交換機是B2B通信的核心,交換晶片帶寬提升推動機間高速互連。交換晶片作為交換機的性能錨點,決定交換機的總帶寬、端口最大傳輸速率、緩沖時間等能力。結合我們的産業鍊觀察,随着資料流量的持續攀升,交換晶片基本按照2年一代的速度實作速率翻倍。目前,全球範圍内最先進的以太網交換晶片産品的帶寬已行至51.2Tbps,博通、英偉達、美滿電子、思科先後釋出相關産品,2023年已有部分産品實作批量出貨;LightCounting預計51.2Tbps的InfiniBand交換晶片将在2024年迎來量産落地。根據LightCounting(2023年4月報告)預測,到2028年,51.2Tbps交換晶片在以太網和InfiniBand的滲透率有望分别達到8%、54%,廣泛應用于AI資料中心。

圖表15:以太網交換晶片各速率出貨量及預測

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:根據LightCounting2023年4月報告

資料來源:LightCounting,中金公司研究部

圖表16:InfiniBand交換晶片各速率出貨量及預測

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:根據LightCounting2023年4月報告

資料來源:LightCounting,中金公司研究部

圖表17:全球領先半導體廠商的高帶寬交換晶片、交換機産品

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:1)“-”表示未公開披露;2)Jericho3-AI全雙工模式下交換晶片速率可達28.8Tbps;3)英偉達Quantum系列官網僅披露交換機配置,未披露搭載的交換晶片具體性能參數

資料來源:各公司官網,TechWeb,半導體行業觀察,中金公司研究部

100G+高速SerDes的逐漸成熟和商用落地從技術端推動了51.2T超大帶寬交換晶片面世。展望未來,我們認為SerDes将繼續向224G演進,有望帶動102.4T及更高帶寬交換晶片上線。根據Yole報告展示的交換晶片更新路線圖,Yole預計在2025年和2027年有望分别迎來帶寬為102.4T和204.8T的交換晶片的批量上市,電氣接口單通道SerDes速率實作從112G到224G的突破。全球以太網交換晶片龍頭博通在3QFY23業績會上表示,為實作下一代1.6T以太網連接配接,2023年已開始開發Tomahawk 6交換晶片(應用224G SerDes),吞吐能力超過100Tb/s,按照此前博通交換晶片每1.5-2年更新一代,我們預計公司超100Tb/s帶寬的交換晶片将于2024年稍晚推出。

從交換機帶寬、端口速率來看,随着AI後端網絡加速向高速遷移,51.2T交換晶片在2024年将進一步部署,400G+端口速率交換機有望在AI叢集中收獲增量,Dell’Oro預測到2025年,400/800G交換機滲透率将達到85%,1.6T交換機亦有望開始逐漸上量,到2027年成為資料中心交換機主流端口速率。

圖表18:AI叢集後端網絡中不同端口速率交換機滲透率及預測

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:包括以太網交換機和InfiniBand交換機

資料來源:Dell’ Oro,中金公司研究部

PHY及SerDes産業鍊梳理

從PHY&SerDes晶片産業鍊看,上遊主要包括Synopsys、Cadence等PHY IP核及EDA廠商,中遊晶片設計廠商包括博通、美滿電子、瑞昱、德州儀器、高通等Fabless或IDM廠商。

圖表19:PHY晶片産業鍊上遊、中遊概覽

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:“~”表示公司PHY晶片市場佔有率

資料來源:裕太微招股書,中金公司研究部

SerDes設計實作IP化,成為接口IP市場增長的重要驅動力。接口IP持續向高速演進,高端接口IP市場張力十足。我們認為,AIGC的發展對資料傳輸的帶寬和時延均提出更高要求,将進一步推動PCIe、以太網、存儲等接口協定更新,底層SerDes技術亦不斷高端化。根據IPnest預測,2022-2026年PCIe、DDR、以太網和D2D四類接口IP市場規模的年均複合增速約為27%,其中高端品類(PCIe4.0及以上&CXL、進階DDR、高端以太網、D2D)增速較快,2022-2026年CAGR高達75%,貢獻未來接口IP市場主要增量,IPnest預計到2026年四類高端接口IP市場規模合計有望達到21.15億美元。

圖表20:2021-2026年高端接口IP市場規模預測

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

注:高端以太網指基于56G、112G、224G SerDes的PHY

資料來源:IPnest,中金公司研究部

IP核和EDA市場由海外頭部廠商主導且集中度較高,龍頭企業IP+EDA軟體業務協同。IP市場主要由Synopsys、ARM等海外廠商主導,根據IPnest資料,按IP許可和版稅收入排名,2022年全球IP市場top3廠商分别為Synopsys、ARM和Cadence,市占率分别為30%、25%和7%,CR3超過60%。Synopsys和Cadence在EDA市場佔有率同樣較高,根據TrendForece資料,2021年全球EDA市場top3廠商分别為Synopsys、Cadence和西門子,份額分别為32%、30%和13%。

聚焦SerDes IP環節——SerDes技術供應商集中在北美,國産廠商加速布局。目前市場上主要存在兩類SerDes廠商:授權SerDes IP給晶片商使用并收取專利授權費。全球領先的第三方SerDes廠商Synopsys、Cadence、Alphawave等均為美國公司;目前國内市場SerDes IP自給率仍較低,本土廠商正在突破112G SerDes技術。博通、Marvell、英特爾等廠商根據自身需求或幫下遊客戶設計SerDes IP,定制化屬性較強。

聚焦以太網PHY晶片環節——以太網PHY晶片市場由境外廠商主導,國産化水準相對較低。根據中國汽車技術研究中心資料,全球以太網PHY晶片主要由博通(美國)、美滿電子(美國)、瑞昱(中國台灣)、德州儀器(美國)等境外廠商主導,2020年全球以太網PHY晶片市場Top5廠商份額合計超91%;國内市場側,主要參與者與全球市場大體相似,瑞昱份額相對較高(28%),Top5廠商份額合計超87%。國内以太網PHY晶片廠商主要包括裕太微、景略半導體(脫胎于美滿電子)等,國産PHY晶片目前市占率較低,且集中于車載場景的低速率産品,我們認為未來在中高速PHY晶片領域的替代空間尚為廣闊。

風險提示

AI大模型及應用發展不及預期。随着全社會數字化轉型及智能化滲透率的提升,人工智能持續賦能各行各業。而人工智能依賴于海量資料進行模型訓練,推動全社會算力需求大幅攀升,對通信硬體裝置傳輸速率、拓展性、相容性等要求較高。若AI大模型及應用發展不及預期,可能放緩D2D、C2C、B2B等通信向超高帶寬更新的需求。

SerDes技術疊代不及預期。高速SerDes設計面臨降低功耗、減少噪聲與擾動等設計難點,同時需要依靠先進制程工藝以優化SerDes整體性能。如若以上環節攻克遇阻,則會導緻SerDes單通道傳輸速率的疊代速度放慢,進而拖累接口實體層傳輸更新整體步伐。

[1]https://www.uciexpress.org/post/ucie-announces-incorporation-and-new-board-members-at-fms-2022

[2]https://investors.broadcom.com/static-files/4378d14e-a52f-409f-9ae4-03d810bc7a6c

文章來源

本文摘自:2024年3月23日已經釋出的《通信技術10年展望系列——224G PHY已啟航,資料中心有線通信邁向新征程》

分析員 陳 昊 SAC 執證編号:S0080520120009 SFC CE Ref:BQS925

聯系人 鄭欣怡 SAC 執證編号:S0080122070103

分析員 李詩雯 SAC 執證編号:S0080521070008 SFC CE Ref:BRG963

分析員 彭 虎 SAC 執證編号:S0080521020001 SFC CE Ref:BRE806

法律聲明

中金通信技術10年展望:224G PHY啟航,資料中心有線通信邁向新征程

繼續閱讀