天天看點

使用 NVIDIA Spectrum-X 網絡平台加速生成式 AI 工作負載

作者:NVIDIA英偉達中國
使用 NVIDIA Spectrum-X 網絡平台加速生成式 AI 工作負載

大語言模型(LLM)和人工智能應用程式(如 ChatGPT 和 DALL-E)最近出現了快速增長。由于 GPU、CPU、DPU、高速存儲和針對人工智能優化的軟體創新,人工智能現在得到了廣泛使用。您甚至可以在雲端或内部部署人工智能。

然而,人工智能應用程式可能會對網絡造成很大負擔,這種增長給 CPU 和 GPU 伺服器以及将這些系統連接配接到一起的現有底層網絡基礎設施帶來了負擔。

傳統以太網雖然足以處理主流和企業應用程式,如 Web、視訊或音頻流,但并未針對支援新一代人工智能工作負載進行優化。在松耦合應用、低帶寬資料流和高抖動的情況下,傳統以太網是理想的選擇。它可能足以滿足異構流量(如 Web、視訊或音頻流、檔案傳輸和遊戲),但在發生超額訂閱時并不理想。

NVIDIA Spectrum-X 網絡平台是一種端到端解決方案,專為滿足人工智能應用程式的性能需求而全新設計,并針對高速網絡性能、低延遲和規模進行了優化。

NVIDIA Spectrum-X

NVIDIA Spectrum-X 網絡平台是為了解決傳統以太網網絡的局限性而開發的。它是一種網絡架構,旨在滿足要求苛刻的人工智能應用程式的需求,用于實作緊耦合的過程。

這種經過 NVIDIA 認證和測試的端到端解決方案結合了一流的人工智能優化網絡硬體和軟體,可提供人工智能工作負載所需的可預測的、一緻的和毫不妥協的性能水準。

使用 NVIDIA Spectrum-X 網絡平台加速生成式 AI 工作負載

圖 1:NVIDIA Spectrum-X 網絡平台将 NVIDIA Spectrum-4 以太網交換機與 NVIDIA BlueField-3 DPU 相結合,為 AI 工作負載提供最佳性能

NVIDIA Spectrum-X 是一種高度通用的技術,可用于各種人工智能應用程式。具體而言,它可以在以下用例中顯著提高 AI 叢集的性能和效率:

  • GPT 和 BERT 大型語言模型
  • 分布式訓練和并行處理
  • 自然語言處理(NLP)
  • 計算機視覺
  • 高性能模拟(NVIDIA Omniverse 和 NVIDIA OVX)
  • 高性能資料分析(Spark)
  • 推理應用程式

NVIDIA Spectrum-X 平台的兩個關鍵元素是NVIDIA Spectrum-4 以太網交換機和 NVIDIA BlueField-3 DPU。

NVIDIA Spectrum-4 以太網交換機

NVIDIA Spectrum-4 以太網交換機為基于标準的以太網建構的 AI 叢集提供了前所未有的應用程式性能。要充分發揮 NVIDIA Spectrum-4 的潛力,需要端到端的、專門建構的網絡架構。隻有 NVIDIA Spectrum-X 平台才能提供支援超大規模人工智能所需的硬體加速器和解除安裝。

NVIDIA Spectrum-4 以太網交換機基于 51.2Tbps 的 Spectrum-4 ASIC 而建構,帶寬是上一代産品的 4 倍。它是全球首款以太網人工智能交換平台。它專為人工智能工作負載而設計,将專用的高性能架構與标準以太網連接配接相結合。

NVIDIA Spectrum-4 提供:

  • RoCE 擴充:具有獨特增強功能的 RoCE
  • RoCE 自适應路由
  • RoCE 性能隔離
  • 簡化、自動化的自适應路由和 RoCE 配置
  • 同步集合
  • 用于 HPC 增強的其他 RoCE 功能
  • 大規模以太網上的最高有效帶寬
  • 低延遲、低抖動和短尾
  • 确定性性能和性能隔離
  • 全棧和端到端優化
  • NVIDIA Cumulus Linux 或 SONiC
使用 NVIDIA Spectrum-X 網絡平台加速生成式 AI 工作負載

圖 2 : NVIDIA Spectrum-4 将專用的高性能架構與标準以太網連接配接相結合

NVIDIA Spectrum-X 與 NVIDIA Spectrum-4 的主要優勢包括:

  • 将 RoCE 擴充用于 AI 和自适應路由(AR),以實作 NVIDIA 集合通信庫(NCCL)的最大性能。
  • 利用性能隔離來確定在多租戶和多作業環境中,一個作業不會影響另一個作業。
  • 確定在出現網絡元件故障時,網絡架構能夠繼續提供最高性能。
  • 與 BlueField-3 DPU 同步,實作最佳 NCCL 和 AI 性能。
  • 在各種人工智能工作負載下保持一緻和穩定的性能,這對實作 SLA 至關重要。

端到端最佳網絡性能

要建構有效的人工智能計算網絡架構,需要優化人工智能網絡的每一個部分,從 DPU 到交換機再到網絡軟體。使用 RoCE 自适應路由和進階擁塞控制機制等技術,在負載和規模需求下實作最高有效帶寬。結合在 NVIDIA BlueField-3 DPU 和 Spectrum-4 交換機上同步工作的功能對于實作 AI 網絡架構的最高性能和可靠性至關重要。

RoCE 自适應路由

人工智能工作負載和應用程式的特點是少量大象流負責 GPU 之間的大量資料移動,其中尾部延遲嚴重影響整個應用程式的性能。使用傳統的網絡路由機制來迎合這種流量模式可能會導緻 AI 工作負載的 GPU 性能不一緻且未得到充分利用。

RoCE 自适應路由是一種細粒度的負載均衡技術。它動态地重新路由 RDMA 資料以避免擁塞,并提供最佳負載均衡以實作最高的有效資料帶寬。

它是一種端到端功能,包括 Spectrum-4 交換機和 BlueField-3 DPU 。Spectrum-4 交換機負責為每個資料包選擇最不擁塞的端口進行資料傳輸。由于同一流的不同資料包通過網絡的不同路徑來傳輸,它們可能會無序到達目的地。BlueField-3 在 RoCE 傳輸層轉換任何無序資料,透明地将有序資料傳遞給應用程式。

Spectrum-4 根據出口隊列負載評估擁塞,確定所有端口都很好地均衡。對于每個網絡資料包,交換機都會在其出口隊列中選擇負載最小的端口。Spectrum-4 還接收來自相鄰交換機的狀态通知,這會影響路由決策。所評估的隊列與服務品質級别相比對。

是以,NVIDIA Spectrum-X 能夠在超大規模系統的負載和規模下實作高達 95% 的有效帶寬。

使用 NVIDIA Spectrum-X 網絡平台加速生成式 AI 工作負載

圖 3 :NVIDIA Spectrum-4 典型資料中心部署結構

RoCE 擁塞控制

由于網絡層面的擁塞,在超大規模雲系統上并發運作的應用程式可能會出現性能下降和可重複運作時間縮短的問題。這可能是由應用程式本身的網絡流量或來自其他應用程式的背景網絡流量引起的。這種擁塞的主要原因被稱為多對一擁塞,即存在多個資料發送方和單一資料接收方。

這種擁塞不能使用自适應路由來解決,并且實際上需要對每個端點的資料流進行計量。擁塞控制是一種端到端的技術,Spectrum-4 交換機提供代表實時擁塞資料的網絡遙測資訊。這些遙測資訊由 BlueField DPU 處理,後者管理和控制資料發送方的資料注入速率,進而實作網絡共享的最大效率。

如果沒有擁塞控制,多對一的場景将導緻網絡背壓和擁塞擴散,甚至出現丢包,進而極大地降低網絡和應用程式的性能。

在擁塞控制過程中,BlueField-3 DPU 執行擁塞控制算法。它們以微秒的反應延遲每秒處理數百萬個擁塞控制事件,并應用細粒度的速率決策。

Spectrum-4 交換機帶内遙測既包含用于準确擁塞估計的排隊資訊,也包含用于快速恢複的端口使用率訓示。NVIDIA RoCE 擁塞控制通過使遙測資料繞過擁塞流排隊延遲,同時仍然提供準确和并發的遙測,進而顯著改善了擁塞發現和反應時間。

RoCE 性能隔離

人工智能超大規模和雲基礎設施需要支援越來越多的使用者(租戶)和并行應用程式或工作流。這些使用者和應用程式無意中競争基礎設施的共享資源(如網絡),是以可能會影響性能。

NVIDIA Spectrum-X 平台包括一些機制,當它們結合在一起時,可以提供性能隔離。它確定一個工作負載不會影響另一個工作負荷的性能。這些機制確定任何工作負載都不會造成網絡擁塞,進而影響另一個工作負載的資料移動。性能隔離機制包括服務品質隔離、用于資料路徑擴充的 RoCE 自适應路由和 RoCE 擁塞控制。

NVIDIA Spectrum-X 平台具有軟體和硬體的緊密內建功能,能夠更深入地了解人工智能工作負載和流量模式。這樣的基礎設施提供了使用專用以太網 AI 叢集進行大型工作負載測試的能力。通過利用來自 Spectrum 以太網交換機和 BlueField-3 DPU 的遙測技術,NVIDIA NetQ 可以主動檢測網絡問題并更快地解決網絡問題,以優化網絡容量的使用。

NVIDIA NetQ 網絡驗證和 ASIC 監控工具集提供了對網絡健康狀況和行為的可見性。NetQ 流遙測分析顯示了資料流在穿越網絡時所采用的路徑,進而提供網絡延遲和性能洞察。

提高能效

由于對計算資源的需求不斷增長以及控制能源成本的需要,功率封頂已成為資料中心的一種常見做法。Spectrum-4 ASIC 和光學創新可簡化網絡設計,提高了每瓦的性能,實作了更高效率,并提供了更快的人工智能洞察,而不會超過網絡功率預算。

總結

NVIDIA Spectrum-X 網絡平台專為要求苛刻的人工智能應用而設計。與傳統以太網相比,NVIDIA Spectrum-X 具有更高的性能、更低的功耗、更低的 TCO、全棧軟硬體內建和大規模,它是運作現有和未來人工智能工作負載的理想平台。

觀看下方視訊

了解更多關于 NVIDIA Spectrum-X 的資訊!

視訊加載中...

繼續閱讀