天天看點

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

作者:NVIDIA英偉達中國

在混合雲與 AI 的時代,企業群組織需要建立、分析和儲存海量的資料,在分布式的應用環境中會形成各種各樣的資料孤島,導緻複雜系統難以管理,成本不斷增加。為了能夠更快速地從資料中獲得所需的洞察力,其底層的資訊架構必須支援混合雲、大資料和人工智能(AI)工作負載以及傳統應用,同時確定安全性、可靠性、資料效率和高性能,還需要能夠無縫擴充來應對非結構化資料的飛速增長。

IBM Storage Scale 作為一種高性能的并行資料存儲解決方案,可以幫助使用者更快速地獲得所需的計算或分析結果,管理快速擴充的資料和基礎架構,同時確定資料安全性并降低總體存儲成本。

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖1:AI 與混合雲對資料存儲的需求

面對生成式 AI 的爆炸式發展,GPU 叢集的運算性能至關重要,不僅需要更高的 GPU 的計算能力和更快的存儲,同時需要專用的網絡基礎設施來確定多個節點并行的最佳性能。NVIDIA 開發了業界首款面向 AI 的以太網網絡平台 - Spectrum-X ,旨在增強 AI 雲的性能和效率。Spectrum-X 平台的核心是 NVIDIA Spectrum-4 以太網交換機、NVIDIA BlueField®-3 SuperNIC/DPU、NVIDIA DOCA 軟體棧及交換機軟體棧和 NVIDIA LinkX 高品質互連裝置,這種組合構成了 AI 加速計算網絡架構的基礎。NVIDIA 将 BlueField-3 SuperNIC 和 DPU 內建到其面向 AI 訓練、推薦及推理等各種系統中,不僅滿足以太網在多租戶雲上的各種需求,同時保證了 AI 叢集最好的運算及存儲性能。

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖2:NVIDIA Spectrum-X 平台介紹

在 AI 雲存儲平台的選擇上,IBM Storage Scale 可提供經過驗證的企業級資料平台。IBM Storage Scale 源自 GPFS,有超過 30 年的研發曆史,在全球有大量成功部署的經驗,廣泛應用在業界超大規模和需求嚴苛的應用環境,包括過去幾十年間全球性能最強的人工智能和高性能計算環境。

為了滿足不同類型應用的資料通路需求,IBM Storage Scale 能夠将檔案、大資料分析、對象和容器應用的接口內建到一個統一的向外擴充的存儲解決方案之中。它可為所有這些資料提供一個統一的命名空間,實作協定互通,并通過直覺的圖形使用者界面(GUI)提供單點管理。通過對最終使用者透明的存儲政策,可對資料進行分層、壓縮或遷移到錄音帶或雲端,以降低成本;資料還可以分層到高性能資料存儲媒體,包括伺服器緩存,進而降低延遲、提升性能。遠端站點的智能資料緩存可確定借助活動檔案管理(AFM)功能以本地讀/寫性能在地域分散的各個站點之間提供資料,不需要複制全部資料,減少資料傳遞的網絡開銷。

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖3:IBM Storage Scale 概覽

對于 AI 叢集應用來說,為了滿足不斷提高的算力和各種基礎模型對更大參數規模的需要,也需要更高速的資料通路能力,避免因為存力不足導緻的低效 I/O使得 GPU 無用武之地。由多台服務組成的 GPU 伺服器叢集需要數百 GBps 到數 TBps 的高速資料存儲才能滿足其對存力的需求;此外,為了提升 GPU 的應用效率,NVIDIA 開發了 GPUDirect Storage 技術,可以通過 RDMA 高速網絡直接将資料從外部存儲傳輸至 GPU 顯存上,能有效減輕 CPU I/O 的瓶頸,提升 GPU 通路資料的帶寬并大幅縮短通信延遲;此外,對于 AI 應用來說,從資料攝入到生産推理,每個環節都需要利用不同工具實作海量資料處理,并且這是一個不斷重複的流程。使用者需要建構的端到端的高速資料管道,簡化流程并實作資料安全、高效的流動。

經過充分優化的 IBM Storage Scale System 可以充分發揮并行架構和高速網絡的優勢,加速各種 AI 工作負載應用,具備以下優勢:

  • 極緻性能:提供業界領先的檔案讀寫性能,目前單個 SSS 子產品可提供超過 310 GB/s 的檔案通路帶寬和 13M IOPS,可擴充到上千個子產品滿足更高性能和容量的需求,同時内置的 Decluster RAID 技術可以最小化各種硬體故障對性能的影響;
  • 認證支援:IBM Storage Scale 是 NVIDIA 官方認證支援 GPUDirect Storage 的存儲技術,能夠避免 GPU 的 I/O 瓶頸,幫助使用者加速各種 AI 業務 和資料密集型應用,同時大幅度提升寶貴 GPU 資源的使用率;
  • 全局通路:IBM Storage Scale 提供的全局資料平台通路能力,支援多種應用通路協定互通(如對象、容器、HDFS 等等)和不同存儲環境,實作資料的整合和排程,結合其它儲存設備(包括錄音帶)實作分層存儲,降低資料總體擁有成本,提升端到端的資料處理效率;
  • 安全彈性:提供端到端的全面資料安全彈性解決方案,包括完善的資料高可用和容災解決方案,以及用于實作網絡安全彈性的 Safeguarded Copy 和安全日志審計能力。
NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖4:單個 IBM SSS 6000 子產品性能實測結果

為了充分發揮 IBM Storage Scale 高帶寬、低延遲時間的優勢,通常使用者會采用支援 RDMA 的網絡來進行資料通路,包括 InfiniBand 網絡和 RoCE(RDMA over Converged Ethernet)網絡。NVIDIA Spectrum-X 平台具備 NVIDIA 獨有的 Adapt Routing 等專門面向 AI 的以太網網絡優化技術,可以在大規模叢集中充分發揮出存儲系統的高帶寬的性能,為客戶打造高性能且穩定運作的 AI 叢集提供穩定的網絡基礎。

以 AI 叢集的資料業務流為例,資料從 GPU 顯存到網絡存儲伺服器的網絡路徑會經過 GPU 叢集上存儲平面的 Leaf 交換機到 Spine 交換機,再到 Leaf 交換機,最後連接配接到存儲伺服器;AI 存儲業務是典型的大象流,傳統的以太網交換機是基于流為粒度的負載分擔,不難看出 GPU 叢集内的 Leaf 層交換機和 Spine 交換機之間會有多條等價路徑,包括 Leaf 到不同 Spine 的等價路徑,也包括同一 Leaf 到 Spine 内多條鍊路的等價路徑,但是由于寫資料流 Hash key 值高度一緻,導緻,在 Leaf 層交換機不能将流充分的配置設定到不同的等價路徑上,這樣的技術對于目前大規模 AI 叢集内的存儲業務來說會影響存儲資料流的傳輸帶寬,即便存儲系統本身性能強大,也會因為網絡成為瓶頸而不能發揮出應有的性能;而當采用 Adapt Routing 技術之後,由于是基于資料包為粒度的轉發機制,無論存儲資料流的數量大小,都可以均勻的将流量轉發到所有等價路徑上,進而消除網絡上的瓶頸,最大化的利用存儲系統的性能,提升存儲帶寬、降低存儲平面時延。這對基于以太網絡建構 AI 叢集極為重要。

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖5:開啟 AR 和關閉 AR 的轉發路徑對比

為了展示 Spectrum-X 平台在存儲領域内的實際效果,如下圖所示,搭建一個 Demo 環境用于模拟 AI 存儲應用的典型場景,采用 4 台搭載 NVIDIA BlueField-3 的伺服器,兩台計算節點配備 BlueField-3 DPU,兩台存儲節點配備 BlueField-3 SuperNIC,采用 6 台搭載 Spectrum-4 交換晶片的 SN5600 交換機組成典型的兩層 Spine-Leaf 胖樹網絡;并且,BlueField DPU 和 SuperNIC 均為為雙端口卡,每個端口連接配接到不同的 Leaf 交換機上,保證存儲平面的高可靠,同時開啟端口 Bonding,使得可以最大化利用端口性能。測試覆寫 2 打 1 和 2 打 2 兩種場景,構造 RDMA 流量進行測試。

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖6:Spectrum-X 存儲 AR 測試 Topo

在 2 打 1 和 2 打 2 的場景下,兩個計算節點同時發送流量給一個或 2 個存儲節點,模拟典型的存儲寫場景,對交換網絡的影響。在測試過程中,分别開啟 Adapt Routing 和關閉 Adapt Routing,收集接受端網絡帶寬,用于對比性能差異,測試如資料下圖所示,可以清楚看到,開啟 Adapt Routing 之後無論是 2 打 1,還是 2 打 2 場景,接受端網絡帶寬都已經接近實體帶寬 95% 以上。在沒有開啟 Adapt Routing 測試用例,流量在交換機之間網絡帶寬使用率大幅下降,最終測試的帶寬不足開啟 Adapt Routing 的一半。進而可以看出,采用了 Adapt Routing 技術的 Spectrum-X 平台可以有效的解決存儲網絡内帶寬瓶頸,充分發揮存儲系統的性能,進而提升 AI 叢集整體的效能。

NVIDIA Spectrum-X 助力 IBM 為 AI Cloud 提供高性能底座

圖7:2 打 1 和 2 打 2 場景下開啟 Adapt Routing 和 關閉 Adapt Routing 的帶寬對比

通過和 NVIDIA 網絡團隊的合作,采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平台實作軟體定義的資料基礎架構,使得搭建在 Spectrum-X 平台上 IBM 的 Storage Scale 不僅可以面向雲上應用提供基于以太網存儲生态的多種服務,同時也可以大幅提升存儲的性能,發揮出 IBM 的 Storage Scale 高吞吐大帶寬的性能優勢,滿足 AI 時代雲上高性能存儲資料的要求。解決新一代以資料為中心的基礎設施所面臨的挑戰和技術瓶頸,為 AI 雲應用提供高性能的底座,幫助客戶在混合雲和 AI 時代實作競争優勢。

即刻點選“閱讀原文”或掃描下方海報二維碼,點播觀看您可能錯過的 GTC 2024 精選演講。緊跟最新的 AI 突破,了解如何利用高性能計算等技術加速您的業務。

繼續閱讀