天天看點

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

采寫 | 魚三隹

編輯 | 靖宇

「下一個時代的 AI」,在中原標準時間 3 月 22 日的英偉達 GTC 大會上,長達 1 小時 40 分鐘的主題演講中,創始人黃仁勳多次說起這個詞。

黑色的虛拟場景中,黃仁勳有條不紊地介紹了一系列服務于 AI 運算的硬體、軟體、AI 和機器人的應用架構,并介紹了英偉達過去一段時間借助 AI 在自動駕駛、虛拟世界、醫療等領域的成就。

去年 11 月秋季的 GTC2021 上,黃仁勳曾高調宣布「進軍元宇宙」,相比之下,此次的 GTC2022 聚焦的問題則接地氣的多。

誕生至今,「元宇宙」從被行業熱捧,到成為「不切實際」的代名詞,可謂大起大落。冷靜之後還未離場的元宇宙玩家們,不得不思考一個嚴肅的問題:要到達如此之遠的未來,該從哪些事情做起。

「AI」,是英偉達抓住的元宇宙命門。

對于元宇宙而言,圖像處理、生成能力面臨千萬級别的提升,而 AI 恰能進行更為複雜、更為精細的圖像處理,無論是在複制模拟,還是在創新建構等方面,AI 都是不可或缺的基礎。

「AI」背後更為基礎、更為關鍵的是「算力」。

曆經十幾年的發展,越來越多的資料被彙集,越來越多的大型算法模型誕生,随之而來的是有待處理的資料與參數的急劇上升。

有專業人士認為,要想實作《雪崩》中所描繪的元宇宙景象,起碼需要 1000 倍的算力增長,蘋果、特斯拉、Meta 等行業巨頭也正逐漸轉向晶片自研與定制。

行業呼喚更高效的計算硬體基礎,面對突如其來殺到門口的「野蠻人」,英偉達選擇主動出擊。

此次英偉達無論是釋出基于全新架構 Hopper 的 H100 GPU、Grace CPU,還是展現自身在 AI 軟體方面的進展,無不透露出其對于搶立下一代 AI 潮頭的布局與野心。

算力:重中之重

NVIDIA H100

主題演講中,首先釋出的是 H100,這是首款基于全新 Hopper 架構的 GPU。

NVIDIA H100 采用的是 TSMC 4N(台積電 4 納米)工藝,內建 800 億個半導體,顯著提升了 AI、HPC、顯存帶寬、互連和通信的速度,并能夠實作近 5TB/s 的外部互聯帶寬。

「20 塊 H100GPU可以承擔起全球網際網路的流量!」黃仁勳在會上豪邁宣布。

H100 實作了數量級的性能飛躍,是英偉達有史以來最大的圖形處理器之一。其 FP8 算力是 4PetaFLOPS,FP16 則為 2PetaFLOPS,TF32 算力為 1PetaFLOPS,FP64 和 FP32 算力為 60TeraFLOPS。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

NVIDIA H100 | 英偉達

H100 的大規模訓練性能是「前輩」A100 的 9 倍,大型語言模型推理的吞吐量是 A100 的 30 倍,

與此同時,Hopper 還專門為 Transformer 打造了專有引擎,這将使得原本耗時幾周的訓練縮短到幾天之内。在模型訓練精度不變的情況下,性能提升 6 倍。

此外,H100 還是全球首款具有機密計算功能的加速器,無論是 AI 模型還是客戶資料都将受到保護。

Grace CPU 超級晶片

在 H100 之外,被黃仁勳稱為「全球 AI 基礎架構的理想 CPU」的 Grace CPU 同樣毫不遜色。

Grace CPU 是英偉達首款面向 AI 基礎設施和高性能計算的專屬 CPU,基于最新的資料中心架構 Arm v9,由兩個 CPU 晶片組成,擁有 144 核 CPU,功耗 500W,性能較之前提升了兩到三倍。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Grace CPU | 英偉達

兩塊 CPU 通過 NVLink 連接配接,該技術可以實作晶片之間的互聯,具有高速率、低延遲時間的特點。Grace CPU 與 Hopper 也可以通過 NVLink 進行各種定制化配置。

NVLink 技術未來将會被廣泛應用與 NVIDIA 的晶片中,包括 CPU、GPU、DPU 以及 SoC,憑借此技術,英偉達的使用者們将能夠利用英偉達的平台實作晶片的半定制化建構。

EoS 全球最快的 AI 超算

算力不夠,數量來湊。

通過黃仁勳的講解我們可以得知,8 個 H100 和 4 個 NVLink 可以組合成 DGX H100,這個巨型 GPU 擁有 6400 億半導體,AI 算力 32 petaFLOPS;32 台 DGX H100 又能組成一台具有 256 塊 GPU 的 DGX POD;而将 18 個 DGX POD,共 4608 個 GPU 搭建在一起,則是英偉達此次宣布的 EoS 超算。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

DGX H100 | 英偉達

最終 EoS 能達到的算力,以傳統超算标準看是 275petaFLOPS,将是此前基于 A100 的美國最大超算 Summit 的 1.4 倍;以 AI 計算的角度看,EoS 輸出 18.4 Exaflops,将是當今全球第一超算富嶽的四倍。

屆時,EoS 将是世界上最快的 AI 超級計算機。

軟體:穩步更新

在軟體系統方面,英偉達依舊穩步更新。

此次英偉達釋出了 60 幾項針對 CUDA-X 的一系列庫、工具和技術的更新,并介紹了自己在氣候預測、對話式 AI 服務 Riva 以及推薦系統 Merlin 架構方面的進展。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Earth-2 | 英偉達

去年的 GTC2021 上,英偉達釋出了首台 AI 數字孿生超級計算機 Earth-2,幾個月過去,英偉達基于此開發了一個天氣預報 AI 模型 FourCastNet。

這一模型由英偉達與來自加州理工學院、伯克利實驗室等高校及科研機構的研究員們共同開發,通過對高達 10TB 的地球系統資料進行訓練,預測降水機率的準确率比以往的模型更高。

随後,黃仁勳又介紹了英偉達的對話式 AI 服務 Riva。

Riva 2.0 版本支援識别 7 種語言,可将神經文本轉換為不同性别發聲的語音,使用者可通過其 TAO 遷移學習工具包進行自定義調優。

Maxine 是一個包含 30 個 AI 模型的工具包,可以實時優化視訊通信的視聽效果。

用全球最快 AI 超算秀肌肉後,黃仁勳要用 AI 抓住元宇宙命門

Maxine | 英偉達

當遠端視訊會議召開時,即便你在讀稿或者浏覽其他網頁,Maxine 可以幫助說話者與參會的其他人員保持視線上的交流。如果參會人員包含不同國籍、使用不同語言,Maxine 能夠通過 AI 模型實時切換成另一國語言。

Merlin 架構面向的則是推薦系統。

元宇宙與新一輪 AI 浪潮

在提升算力、補齊 CPU 短闆的同時,英偉達也沒忘記自己最終追求的元宇宙的「星辰大海」。

黃仁勳的虛拟形象 Toy Jensen 又一次上場與本尊進行對話,而值得注意的是,這一次的 Toy Jensen 能夠做到完全實時地與黃仁勳進行眼神交流與對話。

面對「什麼是合成生物學」、「你是如何制作出來的」等刁鑽問題,Toy Jensen 都給出了流暢的回答。

Toy Jensen 的背後是英偉達的 Omniverse Avatar 架構,該架構能使企業快速建構出類似的虛拟形象,無論是外表、動作還是聲音能都模仿得惟妙惟肖。

而實時對話這一點則是由上文提到的 Riva 以及超大語言模型 Megatron 530B NLP 提供的技術支撐,虛拟形象由此可以聽懂問題并實時回複。

Toy Jensen與黃仁勳對話 | 英偉達

建構虛拟形象、進行實時互動無疑是未來元宇宙世界中的常态,在短短幾分鐘的展示裡,英偉達告訴我們這似乎并非毫無可能。

此外,在黃仁勳看來,新的晶片、軟體和模拟功能将掀起「新一輪 AI 浪潮」,第一波 AI 學習是感覺與推理,而下一波 AI 發展的方向則是機器人。

目前,英偉達圍繞真實資料生成、AI 模型訓練、機器人堆棧和 Omniverse 數字孿生這四大支柱,逐漸搭建起了應用于虛拟形象的 NVIDIA Avatar、用于自動駕駛的 DRIVE、用于操縱和控制系統的 Metropolis、用于自主式基礎架構的 Isaac 和 用于醫療裝置的 Holoscan 等端到端全棧機器人平台。

主題演講最後,黃仁勳用大概 8 分鐘的時間,帶領觀衆們從頭梳理了一遍新釋出的技術、産品以及平台,并總結出了影響行業發展的 5 個趨勢:million-X 百萬倍計算速度飛躍,大幅加快 AI 速度的 Transformers,成為 AI 工廠的資料中心,對機器人系統的需求呈指數級增長以及下一個 AI 時代的數字孿生。

而「算力」提升仍将是一切突破的基礎。

「我們将在未來十年以資料中心規模加速整個堆棧,再次實作 million-X 百萬倍性能飛躍。我已經迫不及待地想看到下一次百萬倍性能飛躍将帶來什麼。」