雖然因為新冠疫情爆發,今年的 GTC 2020 大會也在最後時刻宣布轉為線上,不過人們期待 7 納米制程英偉達 GPU 的熱情并沒有消退。
英偉達當然了解我們的心情,在 GTC 正式開幕一天前,英偉達 CEO 黃仁勳提前放出了一段視訊——在老黃美國加州 Los Altos Hills 的家中,全球最大的 GPU 正式「出爐」了:

我們說的這個「出爐」,它可真是字面意思。
事實上,黃仁勳今年的整個 GTC 大會的主 Keynote 環節都是在這個烤爐前進行的。他還表示,這是英偉達有史以來第一個「廚房 Keynote」。
和普通家庭一樣,黃老闆家的廚房裡也擺着「瓦斯竈」,顯得樸實無華且枯燥。
黃老闆展示的安培(Ampere)架構 GPU 系統以最新英偉達 Tesla A100 晶片組成,被認為是迄今為止 GPU 算力最大的一步提升。
A100:面積最大,性能最強
具體提升了多少?還記得三年前推出、至今仍然業界領先的 Volta 架構晶片 Tesla V100 嗎?V100 用 300W 功率提供了 7.8TFLOPS 的推斷算力,有 210 億個半導體,但 A100 的算力直接是前者的 20 倍。
「A100 是迄今為止人類制造出的最大 7 納米制程晶片,」黃仁勳說道。A100 采用目前最先進的台積電(TSMC)7 納米工藝,擁有 540 億個半導體,它是一塊 3D 堆疊晶片,面積高達 826mm^2,GPU 的最大功率達到了 400W。
這塊 GPU 上搭載了容量 40G 的三星 HBM2 顯存(比 DDR5 速度還快得多,就是很貴),第三代 Tensor Core。同時它的并聯效率也有了巨大提升,其采用帶寬 600GB/s 的新版 NVLink,幾乎達到了 10 倍 PCIE 互聯速度。
随着安培架構出現的三代 Tensor Core 對稀疏張量運算進行了特别加速:執行速度提高了一倍,也支援 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系統會自動将資料轉為 TF32 格式加速運算,現在你無需修改任何代碼量化了,直接自動訓練即可。
A100 也針對雲服務的虛拟化進行了更新,因為全新的 multi-instance GPU 機制,在模拟執行個體時,每塊 GPU 的吞吐量增加了 7 倍。
最終在跑 AI 模型時,如果用 PyTorch 架構,相比上一代 V100 晶片,A100 在 BERT 模型的訓練上性能提升 6 倍,BERT 推斷時性能提升 7 倍。
圖 2. 相比 Tesla V100 和 Tesla T4,A100 GPU 在 BERT 訓練和推理上的性能
「放棄 CPU」的超級計算機
晶片能力的提升,是為了追上今天 AI 算力需求的爆炸性增長。在英偉達看來,自 2017 年 5 月 Volta 架構的 Tesla V100 推出後,今天人們對于 AI 模型訓練算力的需求竟增長了 3000 倍(從當年的 ResNet 發展到今天的 Megatron-BERT 等算法)。
看來制程、架構上的提升還是不夠。另一方面,對于雲服務廠商來說,人們用算力來做的事總在不斷變化,是以也難以設計專有優化的晶片架構。如何尋找一種可以适應更多應用方向的設計方案呢?
三年前英偉達設計 Volta 晶片時已經思考了這一問題。今天推出的安培架構除了性能提升 20 倍,還可以實作 1-50 倍的擴充。英偉達的體系不僅可以向更多 GPU 擴充(Scale-Up),還可以向外擴充(Scale-Out)以滿足人們永無止境的算力需求。
今天的人工智能任務包括模型的訓練和推斷,在原有人工智能系統 DGX-1 中,我們還在使用 GPU 負責訓練、CPU 負責推斷的分工方式。而有了 A100 晶片加持,第三代 DGX 可以把訓練與推斷全部交給 GPU 來完成,充分發揮先進架構的加速能力。
這就是黃仁勳「剛剛出貨」第三代 DGX:
這代 DGX A100 單節點包含 8 塊 GPU,可以輸出 5PetaFLOPS 的 FP16 算力(比 TFLOPS 又多了三個零,10 的 15 次方),今天就已開賣,售價 19.9 萬美元。該價格和上一代 DGX-2 基本持平(DGX-2 首發價 39.9 萬美元,但内含 16 塊 V100 GPU)。首批 OEM 廠商包括浪潮、聯想、惠普,上線的雲服務公司覆寫 AWS、微軟、谷歌、阿裡巴巴、騰訊、百度…… 大廠幾乎全都覆寫了。
這是世界上最大的 GPU,重 50 磅(約合 22.7 千克,相當于一個六七歲孩子的體重)。
A100 使用了成本很高的新制程、新記憶體,使用起來效果如何?英偉達算了一筆賬:今天的資料中心假如使用 50 個 DGX-1 系統(基于 Tesla P100)用于 AI 算法的訓練,600 個 CPU 用于推斷,硬體成本是 1100 萬美元,需要使用 25 個伺服器機架,消耗 630kW 功率。
使用最新的 DGX A100,我們隻需要并聯 5 個 DGX A100 系統,GPU 同時用于 AI 訓練和推斷,成本 100 萬美元,1 個機架,使用 28kW 功率。
「現在,你隻需要十分之一的硬體成本,二十分之一電力消耗就能做同樣的事。The more you buy, the more you save !」黃仁勳說道。
「The more you buy, the more you save」,語音請自行腦補(話說黃老闆不考慮注冊個音頻商标嗎?)。
英偉達還宣布了 DGX A100 SuperPOD,面向更大的雲服務算力需求。它可以支援 140 個 DGX A100 系統(内含 1120 塊 A100),可通過 170 個 Mellanox Quantum 200G infiniBand 切換,實作 700PFLOPS 的 AI 算力。這樣一組伺服器三周之内就可以建成。
英偉達自用的超級計算機「土星五号」,一直被用于醫療影像、自動駕駛任務的訓練,原版搭載 1800 個 DGX 系統,輸出 1.8ExaFLOPS 算力,現在加挂了四個 SuperPOD,最終可以實作 4.6ExaFLOPS 算力,成為了世界最強勁的超級計算機之一。
在今日的釋出會上,英偉達也釋出了 HGX A100,在性能上,憑借第三代 Tensor Core,HGX A100 在 TF 32 精度上将 AI 負載的處理速度提高了 20 倍,而 FP64 精度的高性能計算速度提高了 2.5 倍。其中,HGX A100 4-GPU 可為最苛刻的 HPC 工作負載提供近 80 teraFLOPS 的 FP64 算力。HGX A100 8-GPU 版可提供 5 petaFLOPS 的 FP16 深度學習算力,而 16-GPU 的 HGX A100 提供驚人的 10 petaFLOPS,為 AI 和 HPC 建立了目前世界上最強大的加速擴充伺服器平台。
HGX A100 的特性。
如今,AI 應用已在語音、推薦系統、智能醫療、自動駕駛等任務上得到了實踐。除了算法技術的發展,人們對于算力的需求也有着瘋狂的增長。英偉達已不再把自己定義為晶片制造商,而是一家「資料中心擴充公司」(Data center scale company),這也指明了它未來重點的發展方向。
「在未來,人們使用的計算單元将會是整個資料中心。其背後不是數個 CPU,而會是并聯計算的 GPU 陣列。資料中心需要承載大量不同的計算任務,它們有不同的需求。我們需要訓練、推斷、科學計算、雲遊戲都能做的硬體,并對這些計算都進行加速,」黃仁勳說道。
這或許就是 GPU 的不可替代之處。
終端、自動駕駛全覆寫
安培架構如此強大,英偉達這次也沒有讓資料中心以外的應用方向多等,直接放出了同樣使用新架構的端側晶片 Nvidia EGX A100。
英偉達還介紹了旗下最新技術的一些應用案例,其中包括 4 月底剛剛釋出的小鵬汽車 P7,以及寶馬集團采用英偉達解決方案全面提升工廠物流管理水準的例子。小鵬 P7 的 XPILOT 3.0 是國内首個搭載英偉達 Xavier 計算平台的自動駕駛量産方案,而且還搭載了兩套(硬體互相獨立,互為備援)。
在軟體方面,英偉達推出了自己的語音互動架構 Jarvis,Apache Spark 3.0 現在推出了針對英偉達 GPU 的機器學習支援。英偉達今日也更新了與 GPU 相比對的軟體 CUDA 11,以支援最新的 Ampere GPU 架構、多執行個體 GPU(MIG)分區功能,并為任務圖、異步資料移動、細粒度同步和 L2 緩存駐留控制程式設計并提供 API。
英偉達還釋出了深度學習超級采樣技術 DLSS 2.0 版,可以使用 540p 的原畫面渲染出 1080p 的效果。「神經網絡現在可以『腦補』出低畫質像素沒有表現出的光源,并通過前後幀的類似畫面推測出目前幀應該出現的更多細節,」黃仁勳說道。「現在 DLSS 2.0 的效果甚至好于采用正常抗鋸齒等技術渲染出來的高清晰度畫面。」
GeForce RTX 3080 Ti 還遠嗎?
最後,很多人關心的問題可能是:消費級顯示卡 GeForce RTX 在哪裡?
GTC 大會之前,曾有爆料說英偉達今年三季度将會釋出安培架構的 GeForce RTX 30 系列顯示卡,其光追效果可以提升 4 倍,低端卡也可以秒殺目前版本的 RTX Titan,很多人都在期待 7 納米的英偉達 GPU 在遊戲上的表現。黃仁勳這次隻是表示:「全新架構安培我們現在已經用在 DGX 上了,英偉達正在努力把新架構的晶片用在機器人、自動駕駛汽車等領域中。未來也會用在圖形計算上。」
光線追蹤技術非常誘人:這樣的小遊戲畫面,是由一塊 Quadro RTX 8000 實時渲染出來的。
黃仁勳的表達非常謹慎,不過至少英偉達在這次 GTC 上向我們展示了下一代光線追蹤技術在《我的世界》等遊戲中的效果,并将其标記為 RTX 30/20 系列專有:
我的世界中絕大多數建築都是由玩家自行建造的,這裡可沒有什麼可以「造假」的餘地,一切都需要依靠 GPU 和新技術進行實時渲染。
看來距離 7 納米制程的 Geforce 3080Ti 出世也已不遠了,等等黨永遠不輸。