英偉達Grace Hopper忙于科學研究

英偉達(Nvidia)最新推出的Grace Hopper超級晶片(GH200)處理器已在全球9個新系統中亮相。GH200是英偉達最近釋出的一款晶片，它消除了CPU/GPU通信路徑中的PCI總線。

正如英偉達在ISC 2024上宣布的那樣，即将上線的基于Grace Hopper的新型超級計算機包括法國CEA和Eviden的EXA1-HE；波蘭Cyfronet學術計算機中心的Helios；惠普企業在瑞士國家超級計算中心的Alps；德國于利希（Jülich）超級計算中心的JUPITER；伊利諾伊大學厄巴納-香槟分校國家超級計算應用中心的DeltaAI；由築波大學計算科學中心和東京大學資訊技術中心共同建立的日本進階高性能計算聯合中心的Miyabi 。

今年4月，法國替代能源和原子能委員會(CEA)和Atos集團旗下的Eviden公司宣布傳遞基于Eviden公司BullSequana XH3000技術的EXA1-HE超級計算機。BullSequana XH3000架構提供了一種新的專利溫水冷卻系統，而EXA1-HE則配備了基于Grace Hopper的477個計算節點。

英偉達超大規模和高性能計算副總裁Ian Buck表示:“人工智能正在加速對氣候變化的研究，加速藥物研發，并在數十個其他領域取得突破。”“Grace Hopper驅動的系統正在成為高性能計算的重要組成部分，因為它們能夠在提高能源效率的同時改變行業。”

此外，英國布裡斯托爾大學的Isambard- AI和Isambard 3以及美國洛斯阿拉莫斯國家實驗室和德克薩斯進階計算中心的系統也加入了使用Grace CPU和Grace Hopper平台的英偉達基于arm超級計算機的浪潮。

消除PCI中間路徑

Grace Hopper的設計是Hopper GPU結合基于arm的Grace CPU。在Grace Hopper之前，CPU(通常是X86)使用一個或多個基于PCI總線的GPU。這些額外的GPU必須通過PCI總線進行資料傳輸通信，是以，會建立兩個或更多不同的記憶體域：CPU域和GPU域。這些域之間的資料傳輸必須通過PCI總線，這常常成為瓶頸。

Grace Hopper使用NVLink-C2C互連連接配接CPU和GPU，提供單個共享記憶體域。這是一種記憶體一緻、高帶寬和低延遲的互連。它是Grace Hopper處理器的核心，提供高達900Gb /s的總帶寬。

主權人工智能和高性能計算

随着世界各國認識到主權人工智能的戰略重要性，建構新的、更高效的基于人工智能的超級計算機的動力正在加速——各國都在着力投資于國内擁有和托管的資料、基礎設施和科技人才，以促進創新。

GH200結合了基于arm的Grace CPU和Nvidia 的Hopper GPU架構，是面向全球科學超級計算中心的全新優化設計。許多中心計劃在幾個月内而不是幾年的時間完成從系統安裝到真正的科學研究。

例如，Isambard - AI第一階段由HPE Cray超級計算機EX2500和168個英偉達GH200超級晶片組成，使其成為有史以來最高效的超級計算機之一。今年夏天，當剩下的5280顆Nvidia Grace Hopper超級晶片抵達布裡斯托大學的國家複合材料中心時，性能将提高32倍。

布裡斯托爾大學教授Simon McIntosh-Smith表示:“Isamard -AI将英國定位為人工智能領域的全球上司者，并将有助于促進國内外的開放式科學創新。”“通過與英偉達的合作，我們以創紀錄的時間傳遞了項目的第一階段，當今年夏天完成時，我們将看到性能的巨大飛躍，以推進資料分析、藥物發現、氣候研究和更多領域。”