天天看點

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

作者:智東西
為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

智東西

作者 | ZeR0

編輯 | 漠影

智東西6月20日報道,在5月底舉行的COMPUTEX 2023上,英偉達(NVIDIA)創始人兼CEO黃仁勳公布了英偉達在加速計算和人工智能(AI)領域的多項進展,其中包括全球首個專為人工智能(AI)設計的高性能以太網架構Spectrum-X。

近日,NVIDIA網絡技術專家崔岩、NVIDIA網絡市場總監孟慶、NVIDIA網絡亞太區進階總監宋慶春與智東西等媒體進行交流,分享了Spectrum-X架構的更多技術細節,探讨如何滿足生成式AI工作負載的性能需求,提升生成式AI雲資料中心的性能和效率。

Spectrum-X面向生成式AI市場,擁有無損網絡、動态路由、流量擁塞控制、多業務性能隔離等主要特性,能夠滿足雲上部署AI或生成式AI工作負載對網絡性能的要求,有助于節約訓練成本、縮短訓練時間,加速大模型走向面市。

這是網絡設計上的創新,采用了國際上先進的Co-Design的技術,将英偉達Spectrum-4以太網交換機與NVIDIA BlueField-3 DPU緊密耦合,實作了相比傳統以太網架構1.7倍的整體AI性能和能效提升,并通過性能隔離技術增強了多租戶功能運作多任務的性能,在多租戶環境中保持與Bare Metal一緻、可預測的性能。

新推出的Spectrum-X具有高度通用性,可用于各種AI應用。它完全基于标準的以太網,可與基于以太網的堆棧互操作,由英偉達加速軟體和軟體開發工具包(SDK)進行增強,支援開發者建構軟體定義的雲原生AI應用程式。端到端功能的傳遞減少了大規模基于Transformer的生成式AI模型的運作時間。

一、訓練大模型需要更大規模GPU訓練叢集,網絡影響性能和效率

崔岩說,計算機産業現在有兩個根本性轉變:

一是CPU性能無法持續增長,每五年以同樣成本獲得十倍性能提升的故事已經結束,無法用同樣的成本和電力消耗保持這種算力的增長。

二是資料中心規模問題。大模型出現後,對資料中心的規模、算力等需求不斷更新,一個資料中心成為了一台整體的計算機,AI驅動的大規模負載要在整個資料中心中進行計算,而網絡決定了資料中心的性能及應用場景的優化設計。

宋慶春亦談道,訓練大模型的一個前提是需要用到大量的資料,模型參數也會變得非常大,為了讓訓練效率更高,可能需要上百張GPU卡來放置一個大模型作為一個資料并行組,訓練大模型的時候往往需要很多個這樣的資料并行組來縮短訓練的時間。當GPU數量擴充到成千上萬的時候,性能不僅取決于單一GPU,也不僅取決于單一伺服器,而是要取決于網絡的性能。

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

在加速計算和生成式AI結合的新方式下,資料中心的計算和通信需被重塑。對此,英偉達提出自己的整體加速計算架構,對AI功率負載進行全新的設計。

英偉達有GPU、CPU、DPU的“三U一體”硬體矩陣,能夠為其客戶提供多種多樣的硬體計算平台和網絡通信平台,并在中間提供系統軟體、加速庫和相應的平台,讓客戶可以在整個加速計算的架構中按需選擇不同的硬體、系統軟體、加速庫和平台,友善在不同層次上滿足應用需求。

從全球資料中心的走勢來看,在AI驅動下,英偉達在大規模、大算力、高性能的場景下創造了一個新的網絡應用場景,即AI工廠。最近一些大語言模型的成功都是基于這種高性能的NVLink+InfiniBand無損網絡架構,建構成超大規模的高性能資料中心,支撐大語言模型的訓練需求。

新推出的Spectrum-X便是響應客戶在雲環境中建構自己的生成式AI或AI工作負載,并為此提供高性能以太網網絡性能的需求。

二、不同雲場景需要不同的以太網絡,東西向流量面向分布式場景

原來通用雲計算是采用傳統的網絡,可支撐多租戶、大量小規模的工作負載。

英偉達的兩個網絡架構,可以用到不同AI場景,滿足不同客戶對網絡通信的需求:追求超大規模、高性能就采用NVLink+InfiniBand網絡;多租戶、工作負載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網架構。如果對性能和低延時要求更高,AI雲體系架構也可以使用InfiniBand。

“生成式AI一定是性能為王的市場,是以我們關注的就是性能。InfiniBand加上NVLink無疑是性能最好的,再下來就是Spectrum-X,性能最低的就是傳統的以太網。”宋慶春說。

為什麼雲場景會增加一個新的網絡架構,支撐AI工作負載?

一邊是傳統的以太網支撐網絡管理,以及使用者通過Internet接入到雲,享受對應的應用服務,這些應用程式基本都是松耦合的,可以運作在一台或者多台伺服器或者虛機上面,但租戶和租戶間、業務和業務間是松散的,無直接的依賴關系。傳統以太網結構,是在TCP架構上建構的,是一個有損網絡,即網絡中允許丢包,對帶寬和網絡使用率需求是不高的,應用對性能的抖動也不敏感。比如網絡在資料傳輸過程中有些抖動,可能會導緻通路網頁、收發郵件有點慢,但并不會産生特别無法接受的情況。另外網絡中可能存在異構流量,支援多路徑發送等。

Spectrum-X網絡架構主要是解決資料中心内部東西向流量的加速和性能需求,因為AI需要在資料中心用到幾百個到上萬個GPU去運作一個單一的AI工作負載和計算,是一種分布式緊耦合應用場景,對資料傳輸的性能要求更高,是以要建構一個無損RoCE網絡,可在以太網架構下做到不丢包,支援以太網上的RDMA傳輸,滿足高帶寬和網絡高使用率的要求。

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

AI工作負載沒有辦法接受網絡抖動,一旦産生抖動就會對AI工作負載和性能有巨大影響。AI模型的訓練流量一般是突發的,從部署AI訓練工作任務後,GPU會對資料和模型進行訓練計算,這時在大量的分布式模型之間是沒有流量的,當GPU計算完成後,會在瞬間将模型的梯度值通過網絡傳遞給其它模型上的GPU進行同步,流量會一下子暴增,同步完成之後再次進行計算的時候流量就又沒有了,這樣周而複始,知道訓練完成。一個可預測的性能,保證網絡對于這樣的突發流量有足夠處理能力至關重要。

傳統以太網網絡解決了南北向資料為主的流量和通路應用問題,AI網絡架構面向的是東西向、分布式,密集型網絡流量帶來的問題,是以英偉達打造Spectrum-X專門為此量身打造。

宋慶春說,如果使用高性能網絡,訓練一個模型,原來花二十天,現在花十天就訓練完了,十天節省下來的成本資料是非常可觀的。

三、實作生成式AI在雲上的大規模、可擴充

Spectrum-X實作了生成式AI在雲上的大規模、可擴充。這需要針對雲上的AI工作負載進行端到端的優化,涉及到英偉達的Spectrum-4以太網交換機做為網絡連接配接的核心,主機内采用BlueField-3 DPU和Spectrum-4 通過英偉達的LinkX産品組成端到端的體系架構,運作英偉達的全棧式AI加速軟體,構成了Spectrum-X的端到端高性能網絡平台。

Spectrum-X體系中有不同的加速軟體,以便客戶根據自身業務的需求進行程式設計和加速。如SONiC屬于開源的網絡作業系統,Cumulus是英偉達的基于Linux的網絡作業系統,兩者都可以跑在Spectrum-4交換機上,客戶可以根據需求去選擇。英偉達 Air 可以在數字孿生的環境下進行網絡模拟,包括配置、修改、制定相應政策、驗證整個網絡運轉是否正常,然後在實際網絡上進行相應的部署。

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

英偉達在Spectrum-X平台上提供了相應的開發接口、管理軟體、作業系統,驗證軟體等給客戶使用,在此基礎上,再重點在AI集合通信庫NCCL中去做RoCE優化,實作了基于無損以太網的動态路由。Spectrum-X還包括擁塞控制、多租戶性能隔離等先進技術。能将整體有效帶寬從典型的60%提升到95%,是以帶來大幅的性能提升。

Spectrum-4交換機方面,英偉達在Computex上展示了這個90mm×90mm的晶片,共有1000億顆半導體,其交換帶寬容量是51.2Tb/s,支援64個800Gb/s端口、或者128個400Gb/s端口,配合BlueField-3的DPU實作端到端的優化。

四、利用無損以太網,有效資料吞吐量提升1.6倍

使用Spectrum-X這種獨特的資料中心網絡架構有哪些核心要素?大概包括這些方面:

首先是無損以太網,不允許出現資料包的丢失,可確定高性能和整個端到端動态RoCE路由。無損網絡依靠BlueField-3 DPU 和Spectrum-4交換機的基于優先級的流量控制機制,保證不會出現丢包的情況。增強的擁塞控制技術保證網絡在出現擁塞的時候能在最短的時間内進行響應,每個租戶都能夠得到相應的帶寬,同時也保證整體的高性能。

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

圖中有綠色和紫色兩個工作負載,分别有一個Message,上面、下面都分别拆分為A、B、C、D四個資料包,通過兩個主機上BlueField-3 DPU傳到Spectrum-4交換機,在交換機層面是分層轉發的。

英偉達動态路由的機制是将發到網絡上的資料包逐包進行最佳可用路徑的選擇,資料包會通過不同路徑發送到接收端。這樣的好處在于可以充分利用交換機互相之間的連接配接,讓這些包能夠走不同的最優路徑到達接收端,提升性能。

傳統以太網是對于一條資料流來說,選好路徑就順序發包,如果出現擁塞或特殊情況,比如路徑斷了,沒有辦法動态改變改變目前流的路徑。

現在動态路由實作了一個Message在網絡中傳輸時可以被打亂順序,然後做路徑優選和發送,A、B、C、D在交換網絡中可能走到不同的路徑,這樣到達接收端的BlueField-3 DPU時就有可能是A、B、C、D按照順序有序到達,也可能是無序到達,比如C比B早到達。這是接收端BlueField-3 DPU可以進行資料亂序重組,将無序到達的包變成有序,送出到主機上的應用,確定了應用收到的資料一定是有序的,應用直接就可以拿去用,不會因為亂序或者其它問題造成資料重發。這就是基于無損網絡RoCE動态路由的工作模式,相當于一個Message走了多條路到達目的地,肯定要比走一條路的性能更高一些。

從性能的對比,可以看到關閉和打開動态路由的情況下有效網絡帶寬的差異,傳統以太網的網絡帶寬波動較大,而且使用率低,而Spectrum-X無損網絡端到端的動态路由,可以提升1.6倍的有效帶寬,是以每條鍊路都能得到充分利用。

五、利用可程式設計擁塞控制機制,實作性能隔離

在利用擁塞控制機制方面,圖中顯示工作負載A要傳遞兩個Message,通過不同的DPU發送,接收端通過一個DPU來接收,這就建構了一個多對一的通信情況,如果是傳統的、沒有很好擁塞控制機制的網絡,會在交換機端發生擁塞并開始累積資料,在圖示的例子中會将末端交換機的Buffer耗盡。

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

如果此時還有另外一個工作負載也通過這個網絡發送資料,可能就會受到前面網絡擁塞的影響,因為紫色是排在綠色之後,由于綠色擁塞,導緻紫色犧牲,不能正常到達。如果是兩個租戶,就是一個工作負載會影響到另一個工作負載的性能。

針對這一問題,英偉達采用Spectrum-X端到端平台,BlueField-3 DPU會主動采集Spectrum-4的擁塞狀況的遙測資料并采取措施,能夠在擁塞發生的早期階段就開始調節資料的發送速率。比如在地圖app看到入口已堵車,那麼就減速或者減少車流量,讓擁塞得到緩解,或者發生堵車之前就進行控制,以像這樣的思路,使得所有資料都可以在不擁堵的情況下到達接收方。

BlueField-3 DPU可提供可程式設計性,針對擁塞狀況進行監控和資料流的調整,滿足在上面運作AI或者生成式AI工作負載的需求,不會出現擁塞,在多個租戶的情況下也不會因一個租戶的業務出現擁塞而影響到另外一個租戶的業務。

再來看下關閉和打開性能隔離的NCCL ALLREDUCE帶寬的對比,傳統400Gb/s以太網可能隻能做到141Gb/s有效帶寬;而通過先進的擁塞控制和性能隔離技術,就能達到378Gb/s,接近400Gb/s的線速,兩個工作負載能達到的有效帶寬基本一樣,同時保證了不同的工作負載或者不同的租戶都有自己合适的、有效的網絡帶寬。

為生成式AI量身定制高性能網絡,深度解讀英偉達Spectrum-X以太網平台

圖中還有萬卡級别環境下大規模語言模型訓練的性能比較,無論是每個GPU貢獻的性能比較,還是機關成本能提供的性能比較,或是機關功率所貢獻的性能比較,英偉達的 Spectrum-X 都是傳統以太網架構的1.7倍。

結語:身先士卒打造超大Spectrum-X叢集,築好資料中心地基

英偉達除了給客戶提供Spectrum-X生成式AI雲網絡外,也自己投資在其以色列資料中心建構了一台超大規模AI超級計算機Israel-1。這将是全球性能排名靠前的AI叢集。

這個AI超算投入了256台戴爾伺服器,采用英偉達HGX超級計算平台,共配備了2048個GPU、2560個BlueField-3 DPU,以及80多台Spectrum-4以太網交換機。英偉達會把這台機器作為搭建和優化Spectrum-X平台的參考模型,不斷地向客戶輸出Spectrum-X在AI環境中的性能優化解決方案和安裝部署的參考架構。

不同于傳統網絡廠商,英偉達開創了一個新的以太網應用市場,面向雲AI或者生成式AI工作負載,全新推出一個專門為生成式AI量身打造的以太網架構,以在大規模、高負載的環境下提供更好的性能。

可以看到,近年來英偉達一直在努力推動網絡計算技術的發展,把整個AI工作負載的各個元件重新洗牌,重新定義各項工作的配置設定,建立全新的計算平台,以讓未來的算力平台更加高效。

繼續閱讀