天天看点

突然下手!美国禁止英伟达高端GPU对华销售,意欲何为?刚刚,商务部最新回应来了……

作者:烹饪界推荐家常菜谱

8月31日,美国政府命令芯片厂商NVIDIA(英伟达)停止向中国销售部分高性能GPU,根据路透社报道,另一家AMD(超威半导体)也称收到了相关的禁止命令。

受消息影响,9月1日,国内GPU及AI芯片相关上市公司股价普遍大涨,寒武纪股价一度大涨20%,景嘉微、海光信息等盘中大涨。

被禁售的A100 和 H100 芯片到底有多强悍?美国此刻突然下手,意欲何为?

当前,国内几乎是从零开始研发高端GPU,面对高技术壁垒的GPU,追求国产替代的路堪称一条“孤独的奋斗之路”。

商务部发言人表示,中方注意到相关情况。一段时间以来,美方不断滥用出口管制措施,限制半导体相关物项对华出口,中方对此坚决反对。美方相关做法背离公平竞争原则,违反国际经贸规则,不仅损害中国企业的正当权益,也将严重影响美国企业的利益,阻碍国际科技交流和经贸合作,对全球产业链供应链稳定和世界经济恢复造成冲击。美方应立即停止错误做法,公平对待包括中国企业在内的各国企业,多做有利于世界经济稳定的事。

GPU是何种芯片,

A100和 H100有多强悍?

GPU是计算机图形显示的核心。

相比CPU,GPU更适合于密集型数据处理。其具有高度并行性,可将数学运算应用于高度并行的数据集。虽然CPU也可以执行相同的任务,但不具备GPU的并行性,因此在这些任务中效率不高。

早期GPU多用于2D和3D图形的计算和处理。传统上来说,之前GPU最关键的市场在游戏领域。但长期来看,这部分市场增速趋缓,甚至隐隐有下降势头。

眼下是算力时代,GPU的应用场景主要是加速智能制造下的数字化转型。深度神经网络、数据分析、可视化、互联网推荐算法、数字孪生等均离不开GPU。除游戏主机与PC之外,其终端应用还包括服务器、汽车、移动等领域。

总体上,GPU应用场景主要可以分为两大类:图显和计算。

那么,被禁售的A100 和 H100 芯片到底有多强悍?

相比于英伟达前一代的 Volta GPU,A100 的性能提升了 20 倍,非常适合于人工智能、数据分析、科学计算和云图形工作负载。该芯片由 540 亿个晶体管组成,打包了第三代 Tensor 核心,并具有针对稀疏矩阵运算的加速功能,对于 AI 推理和训练来说特别有用。此外,每个 GPU 可以划分为多个实例,执行不同的推理任务,采用 Nvidia NVLink 互连技术可以将多个 A100 GPU 用于更大的 AI 推理工作负载。

然而,这些在 H100 出现之后显得略有不足了。

在今年春季的发布会中,黄仁勋发布了面向高性能计算(HPC)和数据中心的下一代 Hopper 架构,搭载新一代芯片的首款加速卡被命名为 H100,它就是 A100 的替代者。

H100 是一款针对大模型专门优化过的芯片,使用台积电 5nm 定制版本制程(4N)打造,单块芯片包含 800 亿晶体管。同时也是全球首款 PCI-E 5 和 HBM 3 显卡,一块 H100 的IO 带宽就是 40 terabyte 每秒。

Transformer 类预训练模型是当前 AI 领域最热门的方向,英伟达以此为目标专门优化 H100 的设计,提出了 Transformer Engine,集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及Transformer 神经网络动态处理能力,可以将此类机器学习模型的训练时间从几周缩短到几天。

针对服务器应用,H100 也可以虚拟化为 7 个用户共同使用,每个用户获得的算力相当于两块全功率的 T4 GPU。此外,H100 还实现了业界首个基于 GPU 的机密计算。

基于 Hopper 架构的 H100,英伟达还推出了机器学习工作站、超级计算机等一系列产品。8 块 H100 和 4 个 NVLink 结合组成一个巨型 GPU——DGX H100,一共有 6400 亿晶体管,AI 算力 32 petaflops,HBM3 内存容量高达 640G。

与此同时,得益于与 Equinix(管理全球 240 多个数据中心的全球服务提供商)的合作, A100 和 H100 的新型 GPU 通过水冷方式来节省用户的能源成本。使用这种冷却方法最多可以节省 110 亿瓦时,可以在 AI 和HPC 推理工作中实现 20 倍的效率提升。

今年 5 月份,英伟达曾开源了 Linux GPU 内核模块代码,未来是否还会有更多开源计划,暂未可知。

突然下手,美国意欲何为?

对于此次美国对中国高端GPU销售的限制,各方都有说法。

据美国证券交易所官网信息显示,美国政府已在8月26日向英伟达发出通知,要求英伟达对中国大陆、中国香港和俄罗斯实施一项新的出口管制要求。该要求包括英伟达公司禁止向这些公司出售A100 GPU和即将推出的H100 GPU,立即生效。美国政府表示,这是为了防止这些产品被用于“军事最终用途”或“军事最终用户”。

多位芯片圈业界人士认为,这是美国全面限制中国技术发展的组合拳,全面减慢中国的发展。

一位AI芯片从业者分析,“此前美国限制EDA的销售,以及联合半导体设备以及晶圆代工厂,是在限制本土基础技术,包括芯片技术的发展。如今限制英伟达和AMD在中国的销售,是在阻碍中国应用市场的发展,这也是各大芯片巨头都非常重要的市场。”

北京半导体行业协会副秘书长朱晶表示,根据消息,被封锁的产品是有足够双精度计算能力的高端GPU,对于低端GPU不受影响。具备较高双精度计算能力的高端GPU主要用于高性能计算领域,包括科学计算,CAE(计算机辅助工程),医疗等方面。

超算中心即国家超级计算中心,由数千甚至更多处理器组成,具备超高算力,被誉为“计算机中的珠穆朗玛峰”,主要满足国家高科技领域和尖端技术研究的需求。

相比之下,普通的数据中心面向所有需要信息技术支撑的场景,包括大量互联网应用。中国的电信运营商、互联网公司都自建数据中心。朱晶表示,企业级数据中心经常采购NVIDIA消息中的A100、H100产品,这些产品都是有足够双精度计算能力的高端GPU,上述断供行为如果落实,造成的波及范围会比较大。

过往来看,美国已经对中国超算三次“动手”,2015年中国“天河二号”项目相关的4家中国机构被美国列入“实体清单”;2019年,海光、中科曙光、无锡江南计算技术研究所等5家进入实体清单;2021年,飞腾,申威等7家超算机构进入实体清单。

朱晶表示,从上述历程可以看出,对于中国超算,美国从打击方式到范围来看都是升级的。如若消息属实,这次的打击方式将是从“超算相关单位进入实体清单”升级为“可为超算提供服务的相关产品直接禁售”, 导致受影响的范围从超算领域扩大到互联网领域。

朱晶表示,对高端GPU的断供,看似依然是对中国超算和智能计算的进一步封锁,但波及范围已经远远放大,并且技术点的断供还要考虑对上下游的牵连。

国产替代的路有多难走?

这次的销售限制,对于国产厂商来或是莫大机会。

有行业内人士认为,国内BAT等做大数据的厂商将被迫走上国产替代的道路。海光、壁仞、燧原等厂商的GPU从功能性上说可以取代部分市场对英伟达GPU的需求。

“这一政策变化意味着强制国内数据中心进行国产化替代基本上已经成为必须要求。”AI芯片从业者也表示。

不过,目前国内有机会替代英伟达GPU的产品还几乎没有,遇到了比较大的落地挑战,中国AI芯片公司的发展任重道远。

为何发展高端GPU如此之难呢?

总的来看,技术架构为GPU的硬件壁垒,算法及生态是GPU的软实力所在。缺一不可,壁垒极高。具体来看:

硬件架构方面,GPU结构精密复杂,是长期技术演进的结果。高级图形处理步骤较多,包括顶点处理、光栅化、纹理贴图等步骤,给予支持的是底层精密 复杂的硬件结构。以英伟达2018年推出的Turing架构为例,其包含4608个CUDA Core、576个深度学习矩阵运算单元、72个光追单元等。

算法方面,GPU图形渲染需用到计算图形学,涉及数学、物理等多学科知识。模拟真实世界时,即便是树叶抖动、风吹发丝、水波荡漾这样看似平常的场景,若想在计算机上实现,都需要大量图形算法。

生态方面,分析师指出,软件生态是GPU厂商的重要竞争屏障。还是以龙头英伟达为例,公司已与行业伙伴形成商业合作/互相授权,同时,还推出供软件开发人员使用的CUDA平台,形成开发人员社区生态。

东吴证券也指出,由于缺少像ARM一样的第三方IP授权厂商,GPU设计商必须完全自主研发,从零做起,难度较大,堪称一条“孤独的奋斗之路”。

A股这些上市公司正布局

即便很难,大陆本土GPU公司新兴团队也已开始不断涌现,行业发展进程也在持续推进。

在A股上市公司中,有一些小龙头正悄然成长。

景嘉微(300474)

景嘉微起家于军工领域,发力于国产GPU芯片。景嘉微早期以图形显控和小型专用化雷达产品为主,主要面向军用领域。2014年,JM5系列产品的研发成功,标志着大陆国产GPU芯片从0到1的突破,此后随着JM7和JM9系列产品的陆续研发成功。

JM5和JM7系列产品主要面向军用和信创市场,JM9系列产品对标NVIDIA在2016年发布的Nvidia GTX1080产品,逐步打开民用市场,与海外GPU芯片巨头形成错位竞争。

海光信息(688041)

公司成立于2014年,脱胎于中科院体系,主要产品为面向服务器与工作站的CPU和面向AI训练、数据挖掘的DCU,早年技术来源于AMD的x86授权,但目前技术已实现自主迭代,电信、金融是主要下游领域。

公司位列国内CPU第一梯队,且是国产唯一的两家X86架构企业,性能对标巨头Intel,暂有差距。

此外,海光DCU系列产品以GPGPU架构为基础,兼容通用的“类CUDA”环境,主攻加速计算市场,每两年快速技术迭代,深算一号DCU达到国际上同类型高端产品水平。

龙芯中科(688047)

公司是国内少数可以进行指令系统架构及CPUIP核授权的企业。与部分国内厂商购买商业IP进行CPU芯片设计不同,公司坚持自主研发核心IP,包括系列CPUIP核、GPUIP核、内存控制器及PHY、高速总线控制器及PHY等上百种IP核,全部自主研发成功。

公司长期积累形成自主指令系统架构LoongArch,研发操作系统核心模块,包括内核、三大编译器(GCC、LLVM、GoLang)、三大虚拟机(Java、JavaScript、.NET)等,形成了面向信息化应用的Loongnix和工控类应用的LoongOS两大基础版操作系统。

寒武纪(688256)

公司云端产品线不断迭代更新,主要面向中高端推训场景的思元370,与主要面向训练的高端产品思元290形成协同,在互联网、金融、运营商、AI等客户得到广泛应用,有望接力边缘端产品成为公司主要营收增长动力。

在自动驾驶芯片方面,子公司行歌科技已规划不同档位的车载智能芯片产品,与公司既有的云边端产品线紧密联动,在通用大算力车载智能芯片领域拥有较强的技术优势和市场竞争力,目前已经与一些传统车企展开战略合作,向适配L3+车型的大算力芯片看齐。

本文源自价值线

继续阅读