天天看點

ISC24 | NVIDIA Blackwell 平台推動科學計算突破發展

作者:NVIDIA英偉達中國

最新加速器和網絡平台提升進階模拟、AI、量子計算、資料分析等方面的性能。

ISC24 | NVIDIA Blackwell 平台推動科學計算突破發展

從量子計算到新藥研發和聚變能源領域,随着加速計算和 AI 的進步,全球湧現了一項又一項重大突破,基于實體模拟的科學計算有望推進造福人類的各個領域大幅進步。

NVIDIA 在今年 3 月的 GTC 上釋出了 NVIDIA Blackwell 平台,該平台可在萬億參數級大語言模型(LLM)上實作生成式 AI,而且其成本和能耗相較于 NVIDIA Hopper 架構最低可降至 1/25。

Blackwell 對 AI 工作負載具有重大的意義,其技術能力還将有助于推進包括傳統的數值模拟在内的各類科學計算應用的探索工作。

加速計算和 AI 通過降低能源成本推動可持續計算。許多科學計算應用已從中受益。相較于基于傳統 CPU 的系統和其他系統,天氣模拟的成本和能耗分别降至其 1/200 和 1/300,數字孿生模拟的成本和能耗則分别降至其 1/65 和 1/58。

利用 Blackwell 實作

科學計算模拟性能倍增

科學計算和基于實體的模拟通常依賴于所謂的雙精度格式或 FP64(浮點)來解決問題。Blackwell GPU 的 FP64 和 FP32 FMA(融合乘加)性能比 Hopper 高出 30% 。

基于實體的模拟對産品設計和開發至關重要。無論是飛機、火車,還是橋梁、半導體晶片和藥品,在模拟中對産品進行測試和改進能夠為研究人員和開發人員節省數十億美元。

現今的專用內建電路(ASIC)幾乎完全是在 CPU 上設計的,整個流程漫長且複雜,包括進行模拟分析以确定電壓和電流。

但這種情況正在發生改變。比如,Cadence SpectreX 模拟器就是一個典型的模拟電路設計求解器。SpectreX 電路模拟在 Grace Blackwell 超級晶片(由 Blackwell GPU 和 Grace CPU 連接配接而成)上的運作速度預計可達到傳統 CPU 的 13 倍。

此外,GPU 加速的計算流體動力學(CFD)已成為一種重要工具。工程師和裝置設計師用它來預測各種設計的行為。Cadence Fidelity 在 NVIDIA 的 Grace Blackwell 系統上運作 CFD 模拟的速度預計比傳統基于 CPU 系統快 22 倍,前所未有的流動細節都可被捕捉到。

在另一項應用中,Cadence Reality 的數字孿生軟體被用于建立實體資料中心的虛拟複制品,包括其伺服器、冷卻系統、電源在内的所有元件。這種虛拟模型可以讓工程師在現實世界中進行應用之前,就能夠提前對各種配置和方案進行測試,進而節省時間和成本。

Cadence Reality 的優異之處在于其基于實體的算法可以模拟熱量、氣流和用電量對資料中心的影響。這有助于工程師和資料中心營運人員更有效地管理容量,預測潛在的運作問題,并做出明智的決策,通過優化資料中心的布局和運作,進而提高效率和容量使用率。借助 Blackwell GPU,這些模拟的運作速度預計比 CPU 快高達 30 倍,進而加快了完成時間并提高了能效。

AI 在科學計算中的應用

全新 Blackwell 加速器和網絡平台将大幅提升模拟性能。

NVIDIA Grace Blackwell 開啟了高性能計算(HPC)的新時代。其架構采用第二代 Transformer 引擎,經過優化,可加速 LLM 推理工作負載。

與上一代 Hopper 架構 GPU 相比,Blackwell 架構使資源密集型應用如 1.8 萬億參數的 GPT-MoE(生成式預訓練轉換器-專家混合)模型實作了 30 倍的提速,為 HPC 開辟了新的可能性。通過讓 LLM 處理和解讀海量科學資料,高性能計算應用可以更快獲得有價值洞察,進而加速科學探索。

桑迪亞國家實驗室正在建構一個适用于并行程式設計的 LLM 智能助手。傳統的 AI 可以高效生成基本的串行計算代碼,但當涉及到 HPC 應用的并行計算代碼時,LLM 就會顯得力不從心。桑迪亞的研究人員正在通過一個雄心勃勃的項目解決這個問題,他們準備用 Kokkos 自動生成并行代碼。Kokkos 是一種由多國實驗室設計的程式設計語言,專門用于在全球最強大超級計算機的數萬個處理器上運作任務。

桑迪亞國家實驗室正在使用一種被稱為檢索增強生成(RAG)的 AI 技術将資訊檢索能力與語言生成模型相結合。該項目團隊正在建立一個 Kokkos 資料庫,并利用 RAG 将其與 AI 模型內建。

初步結果十分喜人。桑迪亞國家實驗室采用的不同 RAG 方法已經自主生成了用于并行計算應用的 Kokkos 代碼。他們希望通過克服 AI 并行代碼生成中的障礙,為全球領先的超級計算設施提供新的 HPC 可能性。

其他示例包括可再生能源研究、氣候科學和新藥研發。

推動量子計算的進步

量子計算為聚變能、氣候研究、新藥研發等領域帶來了大幅加速。是以,研究人員正努力在基于 NVIDIA GPU 的系統和軟體上模拟未來的量子計算機,以前所未有的速度開發和測試量子算法。

NVIDIA CUDA-Q 平台通過一個實作 CPU、GPU 和 QPU(量子處理器)協同工作的統一程式設計模型,實作量子計算機模拟和混合應用開發。

CUDA-Q 正在加快巴斯夫化學工作流、石溪大學高能和核實體學研究以及 NERSC 量子化學的模拟速度。

NVIDIA Blackwell 架構将助推量子模拟達到新高度。通過最新的 NVIDIA NVLink 多節點互連技術,可以更快地打通資料以提高量子模拟速度。

加快資料分析以推動科學突破

使用 RAPIDS 處理資料的方式在科學計算領域非常常見。Blackwell 加入了一個硬體解壓縮引擎,能夠對壓縮資料進行解壓縮,并加快在 RAPIDS 中的分析速度。

該解壓縮引擎可将性能提升至 800GB/s,使 NVIDIA Grace Blackwell 在查詢基準測試中的性能較 CPU(在 Sapphire Rapids 上)快 18 倍,較 NVIDIA Hopper Tensor Core GPU 快 6 倍。

憑借 8TB/s 的高記憶體帶寬和 Grace CPU 高速 NVLink 片間(C2C)互連技術,該引擎可大幅提高資料傳輸速度,進而加快整個資料庫查詢過程。Blackwell 能夠在資料分析和資料科學用例中發揮出卓越性能,進而加快資料洞察速度并降低成本。

NVIDIA 網絡平台

為科學計算提供極緻性能

NVIDIA Quantum-X800 InfiniBand 網絡平台可為科學計算基礎設施提供最高吞吐量。

該平台包含 NVIDIA Quantum Q3400 和 Q3200 交換機, 以及 NVIDIA ConnectX-8 SuperNIC,二者組合在帶寬上可達上一代産品的兩倍。Q3400 平台的帶寬容量提高了 5 倍,并且借助 NVIDIA 的 SHARPv4(可擴充分層聚合和歸約協定)技術實作了 14.4 Tflops 的網絡計算能力,較上一代産品提高了 9 倍。

性能的飛躍和能效的提高,使科學計算的工作負載完成時間與能耗顯著減少。

了解更多關于 NVIDIA Blackwell 的資訊,請點選: