天天看點

100分鐘161次提“AI”,英偉達黃仁勳又放大招

100分鐘161次提“AI”,英偉達黃仁勳又放大招

3月22日晚11點,英偉達CEO黃仁勳在GTC大會上又演講了,演講地點從自家廚房搬到了公司。此次演講,老黃将關注的重點聚焦在“AI”上。100分鐘的演講共提及161次“AI”,從英偉達目前支援的 AI應用,到更支援AI技術實作的處理器,再到英偉達提供的AI平台Omniverse。看來老黃這次是打算跟AI死磕了。

天氣預報AI模型提前一周預測災難性天氣

“傳統的數值模拟需要一年的時間,而現在隻需要幾分鐘。”黃仁勳介紹稱,英偉達與包括加州理工學院、伯克利實驗室在内的多家科研機構合作開發的FourCastNet的天氣預報AI模型,将能夠預測飓風、極端降水等天氣事件。黃仁勳稱,FourCastNet由傅裡葉神經算子提供動力支援,基于10TB的地球系統資料進行訓練。依托這些資料,以及 NVIDIA Modulus 和 Omniverse,可實作提前一周預測災難性極端降水的精确路線。

不僅是在極端天氣愈加頻繁的情況下發揮作用,英偉達的産品也使因疫情而愈加普遍化的線上辦公更加智能化。配合線上會議的發展,黃仁勳在演講中正式釋出NVIDIA Riva。這是一種先進且基于深度學習的端到端語音AI,可以自定義調整優化,已經過預訓練,客戶可以使用定制資料進行優化,使其學習特定話術,以應對不同行業、國家和地區的需求。

另一種為應對線上辦公而生的SDK(Software Development Kit,軟體開發工具包)Maxine,也在黃仁勳此次視訊演講中呈現。這是一個AI 模型工具包,目前已擁有 30 個模型,可以幫助使用者在參與線上會議的時候與所有人保持眼神交流,即便是正在讀稿也不會被發現,還能實作語言之間的實時翻譯。

“搭積木”技術建成AI工廠

“這是全球 AI 計算基礎架構引擎的巨大飛躍,隆重推出 NVIDIA H100”。在演講中,黃仁勳再次推出新産品。H100采用 TSMC 4N 工藝,具有 800 億個半導體,是首款支援 PCIe 5.0 标準的 GPU,也是首款采用 HBM3 标準的 GPU,單個H100 可支援 40 TBps 的 算力。從另一個角度來說,20塊 H100 GPU 便可承托相當于全球網際網路的流量。Hopper架構相較于前一代Ampere架構實作了巨大飛躍,其算力達到4 PetaFLOPS 的 FP8,2 PetaFLOPS 的FP16,1 PetaFLOPS 的 TF32,60 TeraFLOPS 的 FP64 和 FP32。H100 采用風冷和液冷設計,據黃仁勳介紹,這是首個實作性能擴充至 700 瓦的 GPU。在 AI 處理方面,Hopper H100 FP8 的 4 PetaFLOPS算力是 Ampere A100 FP16 的 6 倍。

不僅注重速度和算力,H100也注重資料使用的安全性。

“通常,敏感資料處于靜态以及在網絡中傳輸時會進行加密,但在使用期間卻不受保護。”黃仁勳假設了一個場景,若一家公司具有價值數百萬美元的AI模型,而在使用期間不受保護,則該公司将面臨着巨大的資料風險。他聲稱,Hopper 機密計算能夠保護正在使用的資料和應用,能夠保護所有者的 AI 模型和算法的機密性和完整性。此外,軟體開發者和服務提供商可在共享或遠端基礎架構上分發和部署寶貴的專有 AI 模型,在保護其知識産權的同時擴充業務模式。

黃仁勳隆重釋出的全新AI計算系統DGX H100展現出英偉達像搭積木一樣拓展處理器性能的技術。借助 NVLink 連接配接,DGX 使八塊 H100 成為了一個巨型GPU:擁有6400 億個半導體,具備32 PetaFLOPS的 AI 性能,具有640 GB HBM3 顯存以及 24 TB/s 的顯存帶寬。

僅僅連接配接GPU還不夠過瘾,英偉達“搭積木”的技術可以再将8塊GPU連接配接成的DGX進行連接配接。黃仁勳推出NVIDIA NVLink Switch 系統,借助 NVLink Switch 系統,計算系統可擴充為一個巨大的擁有 32 個節點、256 個 GPU 的 DGX POD, HBM3 顯存高達20.5 TB,顯存帶寬高達 768 TB/s。每個 DGX 都可借助 4 端口光學收發器連接配接到 NVLink Switch,每個端口都有 8 個 100G-PAM4 通道,每秒能夠傳輸 100 GB資料,32 個NVLink 收發器可連接配接到 1 個機架單元的 NVLinkSwitch 系統,以此實作超強的拓展性。

黃仁勳稱英偉達正在建造 EOS——英偉達打造的首個 Hopper AI 工廠。搭載18 個DGX POD、576 台 DGX、4608 個 H100 GPU。在傳統的科學計算領域,EOS 的速度是 275 PetaFLOPS,比 A100 驅動的美國速度最快的科學計算機 Summit 還快1.4倍。在AI方面, EOS 的 AI 處理速度是 18.4 ExaFLOPS,比全球最大的超級計算機——日本的 Fugaku 快 4 倍。

從H100到使用8塊H100 構成的AI計算系統DGX H100,再到使用256個GPU的DGX POD以至于HopperAI工廠,英偉達像搭積木一樣,建構起一套輔助AI計算的硬體系統。

與英特爾打擂台的Grace有望明年供貨

在去年的GTC大會上,英偉達推出了首顆資料中心CPU——Grace。按照英偉達的介紹,這是一顆高度專用型處理器,主要面向大型資料密集型 HPC 和 AI 應用。與英特爾CPU堅守的X86架構不同, Grace另起爐竈采用ARM架構。黃仁勳聲稱,伺服器用上這款CPU後, AI性能将超過x86架構CPU的10倍。這套言論無疑将使用Arm的Grace與使用x86架構拉起了擂台。

此次GTC大會,黃仁勳稱Grace 進展飛速,有望明年供貨。不止于此,老黃将“搭積木”技術繼續應用在了Grace技術上。通過Grace與Hopper連接配接,英偉達打造了單一超級晶片模組Grace-Hopper。黃仁勳稱Grace-Hopper 的關鍵驅動技術之一是記憶體一緻性晶片之間的 NVLink 互連,每個鍊路的速度達 900 GB/s。Grace CPU 也可以是由兩個通過晶片之間的 NVLink 連接配接、保證一緻性的 CPU 晶片組成的超級晶片,可擁有144個CPU核心,記憶體帶寬高達 1 TB/s。

接着,老黃給出了Grace 和 Hopper能夠打造的不同排列組合方案:2 個 Grace CPU 組成的超級晶片;1 個 Grace 加 1 個 Hopper 組成的超級晶片;1 個 Grace 加 2 個 Hopper 的超級晶片;搭載 2 個Grace 和 2 個 Hopper 的系統;2 個 Grace 加 4 個 Hopper 組成的系統;2 個Grace 加 8 個 Hopper 組成的系統等。

“老黃”與“小黃”的對話透露出何種玄機

老黃的這次釋出會,再次請出了英偉達仿照自己的形象設計的虛拟人——Toy Jensen。而這次,虛拟人Toy Jensen出現的主要目的,是展示英偉達用于建構虛拟形象或數字人架構的Omniverse Avatar。

在Toy Jensen完成過一輪百科功能展示之後,興緻勃勃地站在老黃對面展示起了自己的出生地——Omniverse Avatar。這是一個基于 Omniverse 平台建構的架構,使用者可以快速建構和部署虛拟形象。“小黃”Toy Jensen的聲音、面部均由英偉達的系列工具提供。“小黃”的聲音由 Riva 的文本轉語音 RADTTS 合成,Omniverse 動畫的動畫圖形可定義并控制其動作, Omniverse Audio2Face 可驅動其面部動畫。NVIDIA 的開源材質定義語言 (MDL) 可增加觸感,使“小黃”的衣服看起來更有合成皮革的視覺感受,而不僅僅是塑膠。最終,“小黃”的形象通過 RTX 渲染器能以實時高保真的程度呈現。得益于 Riva 中的最新對話式 AI 技術和 Megatron 530B NLP 模型,“小黃”得以與真人進行對話。不僅如此,歸功于一款使用 Omniverse Avatar 建構的應用Tokkio ,“小黃”還能連接配接到更多類型的資料,它将客戶服務 AI 引入零售店快餐餐廳,甚至網絡。

繼續閱讀