天天看點

英偉達釋出AI新“核彈”

作者:市場瞭望者
英偉達釋出AI新“核彈”

今年的春季GTC活動中沒有來自NVIDIA的任何新GPU或GPU架構,但該公司仍在推出基于過去一年推出的Hopper和Ada Lovelace GPU的新産品。在高端市場,該公司今天宣布推出一款新的H100加速器變體,專門針對大型語言模型使用者:H100 NVL。

H100 NVL是NVIDIA H100 PCIe卡的一個有趣變體,标志着時代和NVIDIA在人工智能領域的廣泛成功,旨在針對一個特定市場:大型語言模型(LLM)部署。這張卡片有幾個不同于NVIDIA通常的伺服器産品的特點--其中最重要的是它是2個H100 PCIe闆,已經橋接在一起--但最重要的是它擁有大容量的記憶體。這個組合的雙GPU卡提供了188GB的HBM3記憶體--每張卡94GB--比迄今為止任何其他NVIDIA部件的每個GPU提供更多的記憶體,甚至在H100系列中也是如此。

英偉達釋出AI新“核彈”

這個SKU的主要特點是:記憶體容量。像GPT系列這樣的大型語言模型在許多方面都受到記憶體容量的限制,因為它們很快就會填滿即使是H100加速器的所有參數(在最大的GPT-3模型中為175B)。是以,NVIDIA決定組合一個新的H100 SKU,每個GPU提供比它們通常的H100部件更多的記憶體,其最大容量為每個GPU 80GB。

在内部,我們所看到的基本上是GH100 GPU的一個特殊bin,放置在一個PCIe卡上。所有的GH100 GPU都帶有6個HBM記憶體堆棧--可以是HBM2e或HBM3--每個堆棧容量為16GB。然而,出于産量的原因,NVIDIA隻會啟用其正常H100部件中的5個HBM堆棧。是以,雖然每個GPU名義上有96GB的VRAM,但正常SKU上隻有80GB可用。

英偉達釋出AI新“核彈”

相應地,H100 NVL是神秘的完全啟用的SKU,所有6個堆棧都已啟用。通過啟用第6個HBM堆棧,NVIDIA能夠通路額外的記憶體和額外的記憶體帶寬。這将對産量産生一些影響--NVIDIA保持着嚴密的秘密--但LLM市場顯然足夠大,願意支付足夠高的溢價以獲得幾乎完美的GH100包裝,這使得NVIDIA值得付出。

即使如此,需要注意的是,客戶并沒有完全獲得每張卡的96GB記憶體。而是在總容量為188GB的情況下,他們實際上獲得了每張卡的94GB記憶體。在今天的主題演講之前,NVIDIA在我們的預覽中沒有詳細介紹這個設計特點,但我們懷疑這也是為了産量的原因,在HBM3記憶體堆棧内給予NVIDIA一些餘地來禁用壞單元(或層)。最終結果是,新的SKU為每個GH100 GPU提供了14GB更多的記憶體,記憶體增加了17.5%。同時,該卡的總記憶體帶寬為7.8TB /秒,單個闆的記憶體帶寬為3.9TB /秒。

除了記憶體容量的增加,從很多方面來看,大型雙GPU /雙卡H100 NVL内的個别卡看起來很像放置在PCIe卡上的H100的SXM5版本。而普通的H100 PCIe由于使用較慢的HBM2e記憶體,較少的活動SM /張量核心和較低的時脈速度而受到限制,NVIDIA為H100 NVL引用的張量核心性能資料與H100 SXM5相同,表明該卡片不像普通的PCIe卡片那樣被進一步削減。我們仍在等待産品的最終和完整規格,但假設這裡的一切都如所呈現,那麼進入H100 NVL的GH100将代表目前可用的最高分選GH100。

英偉達釋出AI新“核彈”

在這裡需要強調複數形式。正如前面提到的,H100 NVL不是單個GPU零件,而是雙GPU /雙卡零件,并且向主機系統呈現為這樣。硬體本身基于兩個PCIe形态因子的H100,使用三個NVLink 4橋連接配接在一起。從實體上講,這與NVIDIA現有的H100 PCIe設計幾乎相同--可以使用NVLink橋連接配接,是以兩個闆/四個插槽巨獸的構造沒有差別,而是矽片内部的品質不同。換句話說,今天可以将普通的H100 PCIe卡綁在一起,但它不會比對H100 NVL的記憶體帶寬,記憶體容量或張量吞吐量。

令人驚訝的是,盡管規格令人驚歎,TDP幾乎保持不變。H100 NVL是一個700W至800W的零件,其中每個闆的下限為350W至400W,其中下限與正常H100 PCIe相同。在這種情況下,NVIDIA似乎優先考慮相容性而不是峰值性能,因為很少有伺服器機箱可以處理超過350W的PCIe卡(甚至更少的是超過400W的),這意味着TDP需要穩定。但是,鑒于更高的性能資料和記憶體帶寬,尚不清楚NVIDIA如何承擔額外的性能。在這裡,功率分選可以起到很大的作用,但這也可能是NVIDIA将卡片的增壓時脈速度提高了一倍,因為目标市場主要關注張量性能,而不會一次點亮整個GPU。

此外,NVIDIA決定釋出基本上是最佳H100分選的決定是不尋常的,考慮到他們通常更喜歡SXM零件,但考慮到LLM客戶的需求,這是一個明智的決定。基于SXM的大型H100叢集可以輕松擴充到8個GPU,但是任何兩個之間可用的NVLink帶寬受到需要通過NVSwitches的限制。對于僅有兩個GPU的配置,配對一組PCIe卡要直接得多,固定連結保證卡之間的帶寬為600GB /秒。

但或許更重要的是能夠在現有基礎設施中快速部署H100 NVL。LLM客戶不需要安裝專門建構用于配對GPU的H100 HGX載體闆,而可以将H100 NVL直接添加到新的伺服器建構中,或作為相對快速的現有伺服器建構的更新。畢竟,NVIDIA在這裡針對一個非常特定的市場,是以SXM的正常優勢(以及NVIDIA集體施加影響的能力)可能不适用于這裡。

總的來說,NVIDIA标榜H100 NVL的推理吞吐量是上一代HGX A100的12倍(8個H100 NVL與8個A100)。對于希望盡快部署和擴充其系統以處理LLM工作負載的客戶來說,這肯定是誘人的。正如前面提到的,H100 NVL在架構特征方面沒有帶來任何新的東西--這裡的大部分性能提升來自Hopper架構的新變壓器引擎--但H100 NVL将作為最快的PCIe H100選項以及具有最大GPU記憶體池的選項服務于特定的利基市場。