老黃狂拼CPU！英偉達發800億半導體顯示卡，以及世界最快AI超算Eos

新智元報道

編輯：編輯部

【新智元導讀】「拼裝」CPU，4納米顯示卡，世界最快AI超算，還有遊戲開發者的元宇宙。這次，老黃的百寶箱裡都有啥？

今天，老黃穿着他的皮衣又來了！

3月22日晚，英偉達GTC 2022開幕。

雖然沒有了那個熟悉的廚房，但這次的陣仗反而更加豪華。

英偉達用Omniverse把新總部從内到外渲染了一遍！

800億個半導體的Hopper H100

随着拔地而起的平台，英偉達推出了為超算設計的最新AI顯示卡Hopper H100。

相比于「隻有」540億個半導體的前輩A100，英偉達在H100中裝入了800億個半導體，并采用了定制的台積電4納米工藝。

也就是說，H100将具有更好的功率/性能特性，并在密度方面有一定程度上的改進。

在算力上，H100的FP16、TF32以及FP64性能都是A100的3倍，分别為2000 TFLOPS、1000 TFLOPS和60 TFLOPS。

此外，H100還增加了對FP8支援，算力高達4000 TFLOPS，比A100快6倍。畢竟在這方面，後者由于缺乏原生FP8支援而不得不依賴FP16。

記憶體方面，H100也将預設支援帶寬為3TB/s的HBM3，比A100的HBM2E提升1.5倍。

H100支援的第四代NVLink接口可以提供高達128GB/s的帶寬，是A100的1.5倍；而在PCIe 5.0下也可以達到128GB/s的速度，是PCIe 4.0的2倍。

同時，H100的SXM版本将TDP增加到了700W，而A100為400W。而75%的功率提升，通常來說可以預計獲得2到3倍的性能。

為了優化性能，Nvidia還推出了一個新的Transformer Engine，将根據工作負載在FP8和FP16格式之間自動切換。

Hopper架構全新的DPX指令，将為動态規劃的計算速度帶來高達40倍的提升。

在AI訓練中，H100可以提供高達9倍的吞吐量。以Megatron 530B為基準，則可以提供16倍至30倍的推理性能。在3D FFT（快速傅裡葉變換）和基因組測序等HPC應用中，則可提升6-7倍。

DGX伺服器系統

第四代英偉達DGX伺服器系統，将世界上第一個采用H100顯示卡建構的AI伺服器平台。

DGX H100伺服器系統可提供滿足大型語言模型、推薦系統、醫療保健研究和氣候科學的海量計算需求所需的規模。

其中，每個伺服器系統包含8個H100顯示卡，通過NVLink連結為單個整體，半導體總計6400億個。

在FP8精度下，DGX H100可以提供32 PFLOPS的性能，比上一代高6倍。

此外，每個DGX H100系統還包括兩個NVIDIA BlueField-3 DPU，用于解除安裝、加速和隔離網絡、存儲和安全服務。

8個NVIDIA ConnectX-7 Quantum-2 InfiniBand網絡擴充卡提供每秒400 Gb的吞吐量來連接配接計算和存儲子產品——速度是上一代系統的兩倍。

第四代NVLink與NVSwitch相結合，可在每個DGX H100系統中的每個GPU之間提供每秒900 GB的連接配接，是上一代的1.5倍。

而最新的DGX SuperPOD架構則可連接配接多達32個節點、總共256個H100顯示卡。

DGX SuperPOD可提供1 EFLOPS的FP8性能，同樣也是前代的6倍。

世界上最快的AI超算

由576個DGX H100伺服器系統和4608個DGX H100顯示卡組成的「Eos」超級計算機預計将提供18.4 EFLOPS的AI計算性能，比目前世界上最快的超算——日本的「富嶽」快4倍。

對于傳統的科學計算，Eos有望提供275 PFLOPS的性能。

Transformer Engine

作為新Hopper架構的一部分，将顯著提高AI的性能，大型模型的訓練可以在數天甚至數小時内完成。

傳統的神經網絡模型在訓練過程中采用的精度是固定的，是以也難以将FP8應用在整個模型之中。

而Transformer Engine則可以在FP16和FP8之間逐層訓練，并利用英偉達提供的啟發式方法來選擇所需的最低精度。

此外，Transformer Engine可以用2倍于FP16的速度打包和處理FP8資料，于是模型的每一層可以用FP8處理的資料都可以提升2倍的速度。

Grace CPU超級晶片

除了顯示卡，英偉達今天還推出了其首款基于Arm Neoverse架構的處理器——Grace CPU超級晶片。

它基于此前釋出的Grace Hopper CPU+GPU設計，隻不過把顯示卡換成了CPU。

據英偉達實驗室估計，在使用同類編譯器時，Grace CPU超級晶片性能可以提升1.5倍以上。

在技術規格上，可以概括為：

2個72核晶片，高達144個Arm v9 CPU核心

采用ECC技術的新一代LPDDR5x記憶體，總帶寬為1TB/s

SPECrate 2017_int_base得分預計超過740

900GB/s 一緻性接口，比PCIe 5.0快7倍

封裝密度比DIMM解決方案提高了2倍

每瓦性能2倍于當今領先的CPU

超級晶片中的兩個CPU通過英偉達最新的NVLink「晶片到晶片」(C2C) 接口進行通信。

這種「裸晶到裸晶」和「晶片到晶片」的互連支援低延遲記憶體一緻性，允許連接配接的裝置同時在同一個記憶體池上工作。

Grace CPU超級晶片擁有更先進的能效和記憶體帶寬，其創新的記憶體子系統由帶有ECC的LPDDR5x記憶體組成。

LPDDR5x可以提供兩倍于傳統DDR5的帶寬，同時還能使CPU加記憶體的功耗顯著降低至500瓦。

相比之下，AMD的晶片在基準測試中的結果從382到424不等，且每個晶片的功耗最高可達280W（還不包括記憶體）。

此外，Grace CPU超級晶片與NVIDIA ConnectX-7 NIC一起提供了配置到伺服器中的靈活性，可作為獨立的純CPU系統或作為具有1 個、2個、4個或8個基于Hopper顯示卡的加速伺服器。

安培架構再添新品

今天，英偉達為筆記本電腦和桌上型電腦提供了七種基于Ampere架構的顯示卡——RTX A500、RTX A1000、RTX A2000 8GB、RTX A3000 12GB、RTX A4500和RTX A5500。

新的RTX A5500桌上型電腦顯示卡可實作出色的渲染、AI、圖形和計算性能。其光線追蹤渲染比上一代快2倍，其運動模糊渲染性能最高可提高9倍。

第二代RT核心：吞吐量高達第一代的2倍，能夠同時運作光線追蹤、着色和去噪任務。

第三代Tensor Cores：訓練吞吐量是前一代的12倍，支援新的TF32和Bfloat16資料格式。

CUDA核心。比上一代的單精度浮點吞吐量高達3倍。

高達48GB的GPU記憶體：RTX A5500具有24GB的GDDR6記憶體，帶有ECC（糾錯碼）。使用NVLink連接配接兩個GPU，RTX A5500的記憶體可擴充至48GB。

虛拟化：RTX A5500支援NVIDIA RTX虛拟工作站（vWS）軟體，用于多個高性能虛拟工作站執行個體，使遠端使用者能夠共享資源，推動高端設計、AI和計算工作負載。

PCIe 4.0：帶寬是上一代的2倍，加快了資料密集型任務的資料傳輸，如AI、資料科學和建立3D模型。

遊戲開發者也有元宇宙了

已經在元宇宙擁有一席之地的Omniverse再次得到了加強。

本次大會上，英偉達釋出了NVIDIA Omniverse的全新功能，使開發者能夠更輕松地共享資産、對資産庫進行分類、開展協作，并在全新遊戲開發流程中部署AI來為角色制作面部表情的動畫。

借助NVIDIA Omniverse實時設計協作和模拟平台，遊戲開發者可以使用支援AI和NVIDIA RTX的工具，輕松建構自定義工具，以簡化、加速和改進其開發工作流。其元件包括：

Omniverse Audio2Face，一款由NVIDIA AI驅動的應用，使角色藝術家通過音頻檔案生成高品質的面部動畫。Audio2Face支援完整的面部動畫，藝術家們還能控制表演的情感。有了Audio2Face，遊戲開發者可以快速、輕松地為其遊戲角色添加逼真的表情，促進玩家和遊戲角色之間更強的情感連接配接，增強沉浸感。

Omniverse Nucleus Cloud現已開放搶先體驗版，可實作Omniverse場景的一鍵式簡單共享，無需在本地或私有雲中部署Nucleus。通過Nucleus Cloud，遊戲開發者可輕松地在内、外部開發團隊之間實時分享和協作3D資産。

Omniverse DeepSearch是一項AI服務，現在可供Omniverse企業使用者使用，它允許遊戲開發者使用自然語言輸入和圖像來即時搜尋其整個未标記的3D資産、物體對象和角色目錄。

Omniverse Connectors實作第三方設計工具和Omniverse之間的「實時同步」協作工作流的插件。全新虛幻引擎5 Omniverse Connector允許遊戲藝術家在遊戲引擎和Omniverse之間交換USD和材料定義語言資料。

将資料中心轉變為「AI工廠」

不管是Hopper顯示卡架構還是AI加速軟體，抑或是強大的資料中心系統。

所有的這些都将由Omniverse彙集起來，進而更好地模拟和了解現實世界，并作為新型機器人的試驗場，即所謂「下一波AI」。

由于加速計算技術的發展，AI的進展驚人，人工智能已經從根本上改變了軟體可以做什麼，以及如何開發軟體。

老黃表示，Transformer擺脫了對人類标記資料的需求，使自監督學習成為可能，而人工智能一躍以空前的速度發展。

用于語言了解的谷歌BERT，用于藥物發現的英偉達MegaMolBART，以及DeepMind AlphaFold2都是Transformer帶來的突破。

英偉達的AI平台也得到了重大的更新，包括Triton推理伺服器、用于訓練大型語言模型的NeMo Megatron 0.9架構，以及用于音頻和視訊品質增強的Maxine架構。

「我們将在未來十年再争取實作百萬倍的算力提升，」老黃在結束他的演講時說，「我迫不及待地想看看下一個百萬倍會帶來什麼了。」

參考資料：

https://www.nvidia.cn/gtc-global/keynote/

老黃狂拼CPU！英偉達發800億半導體顯示卡，以及世界最快AI超算Eos

繼續閱讀

AI 資料模組化：人工智能如何重塑人類進步的未來（3/5）

買影馳RTX 40系送《黑神話：悟空》，順帶教你怎麼選購合适的顯示卡

大模型應用之路：從提示詞到通用人工智能（AGI）

旗艦顯示卡到底能用幾年?

顯示卡日報6月15日🌈每日更新顯示卡新聞和各平台史低價，歡迎關注～🚨最近顯示卡價格變化不大，可能618也就這樣了；🚨高通釋出A

什麼是人工智能，它與人工智能有何不同，它們的用途是什麼？

不同品牌的顯示卡有什麼差别?

40系顯示卡要配什麼電源?

【裝機指北】2024年中顯示卡品牌及系列定位參考一覽

北約未來二十年：人工智能技術的戰略演進與前瞻

頂尖龍頭+算力+人工智能+存儲+機器人+半導體+短劇+預制菜

AIGC如何幫助數字内容的生産者降本增效在數字時代，内容生産者的效率和成本控制至關重要。AIGC（人工智能生成内容）技術

AI 資料模組化：人工智能如何重塑人類進步的未來（4/5）

人工智能概念股，今年以來漲跌幅排名：

拙文《與何祚庥院士讨論大型粒子對撞機問題》發表之後，何祚庥院士随即給我留言進一步強調“@劉長玉。最為關鍵的問題，是不是"

探索文字魅力：從初識到共鳴，人工智能助手的心路曆程