英偉達釋出AI新“核彈”

今年的春季GTC活動中沒有來自NVIDIA的任何新GPU或GPU架構，但該公司仍在推出基于過去一年推出的Hopper和Ada Lovelace GPU的新産品。在高端市場，該公司今天宣布推出一款新的H100加速器變體，專門針對大型語言模型使用者：H100 NVL。

H100 NVL是NVIDIA H100 PCIe卡的一個有趣變體，标志着時代和NVIDIA在人工智能領域的廣泛成功，旨在針對一個特定市場：大型語言模型（LLM）部署。這張卡片有幾個不同于NVIDIA通常的伺服器産品的特點--其中最重要的是它是2個H100 PCIe闆，已經橋接在一起--但最重要的是它擁有大容量的記憶體。這個組合的雙GPU卡提供了188GB的HBM3記憶體--每張卡94GB--比迄今為止任何其他NVIDIA部件的每個GPU提供更多的記憶體，甚至在H100系列中也是如此。

這個SKU的主要特點是：記憶體容量。像GPT系列這樣的大型語言模型在許多方面都受到記憶體容量的限制，因為它們很快就會填滿即使是H100加速器的所有參數（在最大的GPT-3模型中為175B）。是以，NVIDIA決定組合一個新的H100 SKU，每個GPU提供比它們通常的H100部件更多的記憶體，其最大容量為每個GPU 80GB。

在内部，我們所看到的基本上是GH100 GPU的一個特殊bin，放置在一個PCIe卡上。所有的GH100 GPU都帶有6個HBM記憶體堆棧--可以是HBM2e或HBM3--每個堆棧容量為16GB。然而，出于産量的原因，NVIDIA隻會啟用其正常H100部件中的5個HBM堆棧。是以，雖然每個GPU名義上有96GB的VRAM，但正常SKU上隻有80GB可用。

相應地，H100 NVL是神秘的完全啟用的SKU，所有6個堆棧都已啟用。通過啟用第6個HBM堆棧，NVIDIA能夠通路額外的記憶體和額外的記憶體帶寬。這将對産量産生一些影響--NVIDIA保持着嚴密的秘密--但LLM市場顯然足夠大，願意支付足夠高的溢價以獲得幾乎完美的GH100包裝，這使得NVIDIA值得付出。

即使如此，需要注意的是，客戶并沒有完全獲得每張卡的96GB記憶體。而是在總容量為188GB的情況下，他們實際上獲得了每張卡的94GB記憶體。在今天的主題演講之前，NVIDIA在我們的預覽中沒有詳細介紹這個設計特點，但我們懷疑這也是為了産量的原因，在HBM3記憶體堆棧内給予NVIDIA一些餘地來禁用壞單元（或層）。最終結果是，新的SKU為每個GH100 GPU提供了14GB更多的記憶體，記憶體增加了17.5%。同時，該卡的總記憶體帶寬為7.8TB /秒，單個闆的記憶體帶寬為3.9TB /秒。

除了記憶體容量的增加，從很多方面來看，大型雙GPU /雙卡H100 NVL内的個别卡看起來很像放置在PCIe卡上的H100的SXM5版本。而普通的H100 PCIe由于使用較慢的HBM2e記憶體，較少的活動SM /張量核心和較低的時脈速度而受到限制，NVIDIA為H100 NVL引用的張量核心性能資料與H100 SXM5相同，表明該卡片不像普通的PCIe卡片那樣被進一步削減。我們仍在等待産品的最終和完整規格，但假設這裡的一切都如所呈現，那麼進入H100 NVL的GH100将代表目前可用的最高分選GH100。

在這裡需要強調複數形式。正如前面提到的，H100 NVL不是單個GPU零件，而是雙GPU /雙卡零件，并且向主機系統呈現為這樣。硬體本身基于兩個PCIe形态因子的H100，使用三個NVLink 4橋連接配接在一起。從實體上講，這與NVIDIA現有的H100 PCIe設計幾乎相同--可以使用NVLink橋連接配接，是以兩個闆/四個插槽巨獸的構造沒有差別，而是矽片内部的品質不同。換句話說，今天可以将普通的H100 PCIe卡綁在一起，但它不會比對H100 NVL的記憶體帶寬，記憶體容量或張量吞吐量。

令人驚訝的是，盡管規格令人驚歎，TDP幾乎保持不變。H100 NVL是一個700W至800W的零件，其中每個闆的下限為350W至400W，其中下限與正常H100 PCIe相同。在這種情況下，NVIDIA似乎優先考慮相容性而不是峰值性能，因為很少有伺服器機箱可以處理超過350W的PCIe卡（甚至更少的是超過400W的），這意味着TDP需要穩定。但是，鑒于更高的性能資料和記憶體帶寬，尚不清楚NVIDIA如何承擔額外的性能。在這裡，功率分選可以起到很大的作用，但這也可能是NVIDIA将卡片的增壓時脈速度提高了一倍，因為目标市場主要關注張量性能，而不會一次點亮整個GPU。

此外，NVIDIA決定釋出基本上是最佳H100分選的決定是不尋常的，考慮到他們通常更喜歡SXM零件，但考慮到LLM客戶的需求，這是一個明智的決定。基于SXM的大型H100叢集可以輕松擴充到8個GPU，但是任何兩個之間可用的NVLink帶寬受到需要通過NVSwitches的限制。對于僅有兩個GPU的配置，配對一組PCIe卡要直接得多，固定連結保證卡之間的帶寬為600GB /秒。

但或許更重要的是能夠在現有基礎設施中快速部署H100 NVL。LLM客戶不需要安裝專門建構用于配對GPU的H100 HGX載體闆，而可以将H100 NVL直接添加到新的伺服器建構中，或作為相對快速的現有伺服器建構的更新。畢竟，NVIDIA在這裡針對一個非常特定的市場，是以SXM的正常優勢（以及NVIDIA集體施加影響的能力）可能不适用于這裡。

總的來說，NVIDIA标榜H100 NVL的推理吞吐量是上一代HGX A100的12倍（8個H100 NVL與8個A100）。對于希望盡快部署和擴充其系統以處理LLM工作負載的客戶來說，這肯定是誘人的。正如前面提到的，H100 NVL在架構特征方面沒有帶來任何新的東西--這裡的大部分性能提升來自Hopper架構的新變壓器引擎--但H100 NVL将作為最快的PCIe H100選項以及具有最大GPU記憶體池的選項服務于特定的利基市場。