英伟达下调供应中国市场的H20 AI芯片价

半导体产业纵横

2024-05-24 18:19发布于北京科技领域创作者

本文由半导体产业纵横（ID：ICVIEWS）综合

作为在中国销售的英伟达产品，H20人工智能芯片最受关注。

据悉，英伟达为中国市场开发的 AI 芯片开局疲软，供应充足。当下，英伟达正计划下调供应至中国市场的H20人工智能芯片价格。

英伟达中国市场在2024财年贡献17%的营收，其AI芯片价格趋平凸显了英伟达中国业务面临的挑战，也给其在中国市场的未来蒙上了一层阴影。

中国日益加剧的竞争压力也给英伟达投资者敲响了警钟。在5月22日公布丰厚的营收预测后，该公司股价延续了惊人的上涨势头。

H20是英伟达为中国市场开发的三款AI芯片（HGX H20、L20 PCle 和 L2 PCle）中最强的一款，但运算力低于英伟达的旗舰AI芯片H100及H800，后者也是专门为中国市场开发的。

从三块型号 H20、L20、L2 来看，H20 应该是训练卡，而 L20、L2 应该是推理卡，H20 基于最新的 Hopper 架构，而 L20、L2 则基于 Ada 架构。

从之前曝光的规格来看，H20內存容量96 GB，运行速度高达4.0 Tb/s，运算能力为296 TFLOPs，使用GH100芯片，性能密度（TFLOPs/Die size）仅为2.9。也就是说，H20的AI算力只有H100的不到15%。

H20缓存与带宽比昇腾910B高，其中带宽是910B的两倍，也就是说，H20在互连速度方面更有优势，互连速度决定了芯片之间数据传输的速度。这意味着在需要将大量芯片连接在一起作为整个系统工作的应用环境中，H20与910B相比仍然具有竞争力，而恰好训练大模型就是这样的一个场景。

目前，华为昇腾社区已公开Atlas 300T产品有三个型号，分别对应昇腾910A、910B、910 Pro B，最大 300W功耗，前两者AI算力均为256 TFLOPS，而910 Pro B可达280 TFLOPS（FP16）。

在与H100的对比中，H100拥有80GB HBM3内存，内存带宽为3.4Tb/s，理论性能为1979 TFLOP，性能密度（TFLOPs/Die size ）高达19.4，是英伟达当前产品线中最强大的GPU。

H20，拥有96GB HBM3内存，内存带宽高达4.0 Tb/s，均高于H100，但计算能力仅为296 TFLOP，性能密度为2.9，远不如H100。理论上H100 相比H20 的速度快了6.68倍。但值得注意的是，这个比较是基于FP16 Tensor Core的浮点计算能力(FP16 Tensor Core FLOPs)，且启用了稀疏计算（大大减少运算量，因此速度会有显著提升），因此并不能全面反映其所有的计算能力。

另外，该GPU的热设计功耗为400W，低于H100的700W，并且在HGX解决方案(英伟达的GPU服务器方案)中可以进行8路GPU的配置，它还保留了900 GB/s的NVLink高速互联功能，同时还提供了7路MIG(Multi-Instance GPU，多实例GPU)的功能。

H100 SXM TF16（Sparsity）FLOPS = 1979

H20 SXM TF16（Sparsity）FLOPS = 296

根据Peta的LLM性能对比模型表明，H20在moderate batch size下峰值token/秒，比H100高出20%，在low batch size下的token to token延迟比H100还要低25%。这是由于将推理所需的芯片数量从2个减少到1个，如果再使用8位量化，LLAMA 70B模型可以在单个H20上有效运行，而不是需要2个H100。

值得一提的是，H20的计算能力虽然只有296个TFLOP，远不及H100的1979个，但如果H20的实际利用率MFU（目前H100的MFU仅为38.1%），这意味着H20实际能跑出270 TFLOPS，那么H20在实际多卡互联环境中的性能接近H100的50%。

从传统计算的角度来看，H20相比H100有所降级，但在LLM推理这一方面，H20实际上会比H100快了20%以上，理由是H20在某些方面与明年要发布的H200相似。注意，H200是H100的后继产品，复杂AI和HPC工作负载的超级芯片。

与此同时，L20配备48 GB 内存和计算性能为239个TFLOP，而 L2 配置为 24 GB 内存和计算性能193个TFLOP。L20基于L40，L2基于L4，但这两款芯片在LLM推理和训练中并不常用。

L20和L2均采用 PCIe 外形规格，采用了适合工作站和服务器的PCIe规格，相比Hopper H800和A800这些规格更高的型号，配置也更加精简。

但是英伟达用于AI和高性能计算的软件堆栈对某些客户来说非常有价值，以至于他们不愿放弃Hopper架构，即使规格降级也在所不惜。

L40 TF16 (Sparsity) FLOPs = 362

L20 TF16 (Sparsity) FLOPs = 239

L4 TF16 (Sparsity) FLOPs = 242

L2 TF16 (Sparsity) FLOPs = 193

再看H200的量产进展。今年3月，英伟达宣布，开始供货尖端图像处理半导体“H200”。H200是面向人工智能的半导体，性能超过现在的主打GPU“H100”。英伟达相继推出最新的AI半导体，目的是保持较高的市场份额。随后在4月，OpenAI总裁兼联合创始人Greg Brockman在社交媒体X透露，英伟达向OpenAI交付了全球第一部DGX H200，并附上在交付现场本人与OpenAI CEO 奥特曼和英伟达CEO黄仁勋的合照。Brockman表示，黄仁勋倾力打造的这部设备“将推进AI、计算以及人类文明”。不过，英伟达并没有公开GH200的价格。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

查看原图 77K