英偉達下調供應中國市場的H20 AI晶片價

半導體産業縱橫

2024-05-24 18:19釋出于北京科技領域創作者

本文由半導體産業縱橫（ID：ICVIEWS）綜合

作為在中國銷售的英偉達産品，H20人工智能晶片最受關注。

據悉，英偉達為中國市場開發的 AI 晶片開局疲軟，供應充足。當下，英偉達正計劃下調供應至中國市場的H20人工智能晶片價格。

英偉達中國市場在2024财年貢獻17%的營收，其AI晶片價格趨平凸顯了英偉達中國業務面臨的挑戰，也給其在中國市場的未來蒙上了一層陰影。

中國日益加劇的競争壓力也給英偉達投資者敲響了警鐘。在5月22日公布豐厚的營收預測後，該公司股價延續了驚人的上漲勢頭。

H20是英偉達為中國市場開發的三款AI晶片（HGX H20、L20 PCle 和 L2 PCle）中最強的一款，但運算力低于英偉達的旗艦AI晶片H100及H800，後者也是專門為中國市場開發的。

從三塊型号 H20、L20、L2 來看，H20 應該是訓練卡，而 L20、L2 應該是推理卡，H20 基于最新的 Hopper 架構，而 L20、L2 則基于 Ada 架構。

從之前曝光的規格來看，H20內存容量96 GB，運作速度高達4.0 Tb/s，運算能力為296 TFLOPs，使用GH100晶片，性能密度（TFLOPs/Die size）僅為2.9。也就是說，H20的AI算力隻有H100的不到15%。

H20緩存與帶寬比昇騰910B高，其中帶寬是910B的兩倍，也就是說，H20在互連速度方面更有優勢，互連速度決定了晶片之間資料傳輸的速度。這意味着在需要将大量晶片連接配接在一起作為整個系統工作的應用環境中，H20與910B相比仍然具有競争力，而恰好訓練大模型就是這樣的一個場景。

目前，華為昇騰社群已公開Atlas 300T産品有三個型号，分别對應昇騰910A、910B、910 Pro B，最大 300W功耗，前兩者AI算力均為256 TFLOPS，而910 Pro B可達280 TFLOPS（FP16）。

在與H100的對比中，H100擁有80GB HBM3記憶體，記憶體帶寬為3.4Tb/s，理論性能為1979 TFLOP，性能密度（TFLOPs/Die size ）高達19.4，是英偉達目前産品線中最強大的GPU。

H20，擁有96GB HBM3記憶體，記憶體帶寬高達4.0 Tb/s，均高于H100，但計算能力僅為296 TFLOP，性能密度為2.9，遠不如H100。理論上H100 相比H20 的速度快了6.68倍。但值得注意的是，這個比較是基于FP16 Tensor Core的浮點計算能力(FP16 Tensor Core FLOPs)，且啟用了稀疏計算（大大減少運算量，是以速度會有顯著提升），是以并不能全面反映其所有的計算能力。

另外，該GPU的熱設計功耗為400W，低于H100的700W，并且在HGX解決方案(英偉達的GPU伺服器方案)中可以進行8路GPU的配置，它還保留了900 GB/s的NVLink高速互聯功能，同時還提供了7路MIG(Multi-Instance GPU，多執行個體GPU)的功能。

H100 SXM TF16（Sparsity）FLOPS = 1979

H20 SXM TF16（Sparsity）FLOPS = 296

根據Peta的LLM性能對比模型表明，H20在moderate batch size下峰值token/秒，比H100高出20%，在low batch size下的token to token延遲比H100還要低25%。這是由于将推理所需的晶片數量從2個減少到1個，如果再使用8位量化，LLAMA 70B模型可以在單個H20上有效運作，而不是需要2個H100。

值得一提的是，H20的計算能力雖然隻有296個TFLOP，遠不及H100的1979個，但如果H20的實際使用率MFU（目前H100的MFU僅為38.1%），這意味着H20實際能跑出270 TFLOPS，那麼H20在實際多卡互聯環境中的性能接近H100的50%。

從傳統計算的角度來看，H20相比H100有所降級，但在LLM推理這一方面，H20實際上會比H100快了20%以上，理由是H20在某些方面與明年要釋出的H200相似。注意，H200是H100的後繼産品，複雜AI和HPC工作負載的超級晶片。

與此同時，L20配備48 GB 記憶體和計算性能為239個TFLOP，而 L2 配置為 24 GB 記憶體和計算性能193個TFLOP。L20基于L40，L2基于L4，但這兩款晶片在LLM推理和訓練中并不常用。

L20和L2均采用 PCIe 外形規格，采用了适合工作站和伺服器的PCIe規格，相比Hopper H800和A800這些規格更高的型号，配置也更加精簡。

但是英偉達用于AI和高性能計算的軟體堆棧對某些客戶來說非常有價值，以至于他們不願放棄Hopper架構，即使規格降級也在所不惜。

L40 TF16 (Sparsity) FLOPs = 362

L20 TF16 (Sparsity) FLOPs = 239

L4 TF16 (Sparsity) FLOPs = 242

L2 TF16 (Sparsity) FLOPs = 193

再看H200的量産進展。今年3月，英偉達宣布，開始供貨尖端圖像處理半導體“H200”。H200是面向人工智能的半導體，性能超過現在的主打GPU“H100”。英偉達相繼推出最新的AI半導體，目的是保持較高的市場佔有率。随後在4月，OpenAI總裁兼聯合創始人Greg Brockman在社交媒體X透露，英偉達向OpenAI傳遞了全球第一部DGX H200，并附上在傳遞現場本人與OpenAI CEO 奧特曼和英偉達CEO黃仁勳的合照。Brockman表示，黃仁勳傾力打造的這部裝置“将推進AI、計算以及人類文明”。不過，英偉達并沒有公開GH200的價格。

*聲明：本文系原作者創作。文章内容系其個人觀點，我方轉載僅為分享與讨論，不代表我方贊成或認同，如有異議，請聯系背景。

檢視原圖 77K