天天看点

三大运营商争相布局,全球掀起AI算力中心“军备竞赛”

作者:半导体产业纵横
三大运营商争相布局,全球掀起AI算力中心“军备竞赛”

人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日,OpenAI公司推出一款人工智能对话聊天机器人ChatGPT,其出色的自然语言生成能力引起了全世界范围的广泛关注,2个月突破1亿用户,国内外随即掀起了一场大模型浪潮,Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现,2022年也被誉为大模型元年。

人工智能也因此被视为革命性的技术,对世界各国政府具有重要的战略意义。数据显示,今年,大陆生成式人工智能的企业采用率已达15%,市场规模约为14.4万亿元。在制造业、零售业、电信行业和医疗健康等四大行业的生成式人工智能技术的采用率均取得较快增长。

作为推动人工智能发展的三大要素之一,算力被称为人工智能的“发动机”和核心驱动力。算力是指设备通过处理数据,实现特定结果输出的计算能力。中国电信研究院战略发展研究所高级分析师陈元谋表示,算力指数每提升一个点,对数字经济的拉动大概是在0.36个百分点,对GDP的拉动大概是0.17个百分点

算力的紧缺甚至已成为制约人工智能研究和应用的关键因素。对此,美国对华高端算力产品采取了禁售措施,华为、龙芯、寒武纪、曙光、海光等企业都进入实体清单,它们芯片制造的先进工艺受限,国内可满足规模量产的工艺节点落后国际先进水平2-3代,核心算力芯片的性能落后国际先进水平2-3代。

01

算力短缺催生算力中心巨大市场

21世纪,移动计算和云计算蓬勃发展。云计算的出现,使得算力可以像水和电一样,通过网络“流动”到需要它的每一个角落。

人工智能的崛起对算力提出了更高的要求,GPU(Graphics Processing Unit,图形处理单元)和TPU(Tensor Processing Unit,张量处理单元)等专用硬件的出现,极大地提高了处理效率,为机器学习模型的训练和推理提供了强大的支持。

叠加算力紧缺的因素,进一步促成和孕育了算力中心这样一个巨大市场。算力中心是指具备高性能计算、大规模存储、高速网络等基础设施的计算中心,旨在提供大规模、高效率、低成本的算力服务。

以国内为例,全国多地都在加速布局公共算力基础设施。在上海,建设了全国首个算力交易平台和人工智能公共算力服务平台。在广州,建设了国内首个算力资源发布共享平台。可以说,这些公共平台给供需双方牵了线搭了桥。

目前,国内在8个地区建设国家算力枢纽节点,并规划了10个国家数据中心集群,以构建国家算力网络体系。截至2023年底,国内智算中心项目为128个,其中83个项目披露规模,规模总和超过7.7万P。另外,2024年共有39个智算中心项目已投产。

02

智算缺口犹存,三大运营商布局智算中心

近两年来,AI大模型层出不穷,对智算的需求也在飞速增长。市场咨询机构IDC预计,2026年,大陆智能算力规模将进入每秒十万亿亿次浮点(ZFLOPS)级别,达到1271.4EFLOPS。此前六部门发布的《算力基础设施高质量发展行动计划》明确了顶层算力在未来三年的建设节奏。其中提及,2023年至2024年智算建设缺口为23EFlops。2025年全国算力目标超过300EFlops,智算比例达到35%,智算算力目标为105EFlops。

针对于此,近年来三大运营商也在积极布局智算中心,并提出相关战略部署。

中国联通在提供专业化智算基础设施服务方面,布局了“1+N+X”智算能力体系,包括了1个超大规模的单体智算中心、N个智算训推一体枢纽和属地化的X个智算推理节点。

中国移动强化“4+N+31+X”数据中心布局,围绕热点、中心、边缘实现算力资源覆盖,建设边缘节点超1000个。“4+N+31+X”数据中心体系,其中“4”指京津冀、长三角、粤港澳大湾区、成渝等4个热点业务区域,“N”指国家枢纽节点10 个数据中心集群内规划的超大型数据中心;“31”指各省规划超大型数据中心;“X”指各地市级数据中心及汇聚机房。

中国电信则提出了“云网融合”的理念,形成了“2+4+31+X+O”的算力布局。其具体特指在内蒙古和贵州两个全国性云基地打造融合资源池,在京津冀等4个大区建成大规模公有云;在31个省省会级和重点城市建设属地化专属云;在X节点打造差异化边缘云;布局“一带一路”沿线国家,将算力体系延展至海外。

03

美欧日大举投资,全球掀起AI算力 “军备竞赛”

当前,全球范围内的各国都在制定各自的人工智能战略和政策,以推动 AI 产业发展。

美国在 2016 年发布的《美国人工智能研究和发展战略计划》中就明确提出了加强 AI 基础设施的建设。同时,欧洲联盟也在 2018 年发布的 AI 战略中明确提出了加强基础设施建设的目标。这些基础设施主要包括计算资源、数据资源、人才资源等。日本紧跟美国步伐,相继于2019年、2021年、2022年出台3版《人工智能战略》。去年四月,日本政府成立人工智能战略小组,由首相辅佐官村井英树担任组长,组员包括内阁官房、外务省、数字厅等部门人工智能政策主管官员。

在一系列战略部署下,美日欧等国家和地区也在争相建设算力中心,全球掀起AI算力“军备竞赛”。

去年11月,美国国家超级计算中心和诸多AI领域龙头公司联合组建了万亿参数联盟(TPC)。该联盟由来自全球的科学家组成,目标是共同推进用于科学发现的AI模型,特别关注一万亿或更多参数的巨型模型。目前,TPC正在开发可扩展模型架构和训练策略,并组织整理用于模型训练的科学数据,以优化当前和未来的百万兆次级计算平台的AI库。

此外,美国能源部下属的橡树岭国家实验室、劳伦斯·利弗莫尔国家实验室以及 IBM、NVIDIA公司成立超级计算机卓越实验中心,联合开发新一代 HPC 计算机,使用 IBM 的Power 处理器及 NVIDIA 的 Teslak 加速卡,浮点性能至少 10 亿亿次,最高的可达 30 亿亿次。

2020年12月,欧盟拟为“数字欧洲”计划拨付75亿欧元,其中22亿欧元用于超级计算,21亿欧元用于人工智能。该计划具体包括:在2021年底前至少收购1台百万兆级超级计算机;在健康、制造和能源等领域建立可用于人工智能的全欧数据空间及测试设施;部署泛欧量子通信基础架构并支持建立网络安全产品认证计划;专设人工智能、高级计算和网络安全硕士计划等。

去年3月,英国政府承诺向超级计算和人工智能研究投入10亿英镑(13亿美元),希望成为“科技超级大国”。作为该战略的一部分,政府表示,希望花费约9亿英镑建造一台“超大规模” 计算机,它能够构建自己的“BritGPT”,与OpenAI的生成式AI聊天机器人相媲美。

今年四月,日本经济产业省将向5家日本企业提供总额725亿日元的补贴,用于打造人工智能超级计算机,旨在减少对美国的技术依赖。日本政府为Sakura Internet、日本电信巨头 KDDI、GMO 互联网、Rutilea 和 Highreso 分别提供 501 亿、102 亿、19 亿、25 亿和 77 亿日元的政府补贴。消息显示,日本“产业技术综合研究所”将最早于今年开发出一台超级计算机,其计算能力大约是现有机器的 2.5 倍。在日本经产省的监督下,该机构将通过云服务将这台超算提供给开发生成式 AI 的日本国内企业。

除了政府支持的项目外,全球科技企业也在砸钱建算力。亚马逊计划未来15年投资 1480 亿美元在全球各地建设数据中心,满足人工智能等需求。谷歌公司宣布投资 30 亿美元用于建设或扩建位于弗吉尼亚州和印第安纳州的数据中心园区。微软、OpenAI也正在进行一项分为五个阶段的超级计算机建设项目,拟动用的投资将超过1150亿美元,其中大部分的成本将用在采购驱动AI所需的算力设施。

04

运营商启动大规模采购,AI芯片市场爆发

大规模的布局算力中心也带来了对AI芯片的大规模采购。

近日,中国移动启动大规模AI芯片集采引发业界广泛关注。中国移动启动2024年至2025年新型智算中心采购。招标公告显示,本次项目采购总规模达到8054台。有机构测算,按照此前中标报价,此次采购规模或超过150亿元。

一个月前,中国联通也启动了超过2500台AI服务器采购,而中国电信此前也早已行动。随着三大运营商启动大规模招标,在业内看来,国内算力部署已经驶上“快车道”。

就在2个月前,中国移动还发布了2023年至2024年新型智算中心(试验网)集采项目,12个标包对应AI训练服务器采购量总计达到2454台(1-11标包集采1204台,12标包集采1250台)。

在3月底,中国联通发布2024年中国联通人工智能服务器集中采购项目资格预审公告,公告显示,2024年中国联通人工智能服务器集中采购项目已批准,招标人为中国联合网络通信有限公司及省分公司、联通数字科技有限公司等。此次中国联通将采购人工智能服务器合计2503台,关键组网设备RoCE交换机合计688台,本次采购不划分标包。

去年10月,中国电信也公布了AI算力服务器(2023-2024年)集中采购项目评审结果,超聚变、浪潮、新华三等厂商入围,合计采购4175台AI服务器和1182台交换机。

05

算力中心建设带动AI芯片厂商受益

目前来看,主要有建设算力中心的企业包括运营商、大型云服务企业和大型互联网企业。这些企业资金充沛,体量大,能承担建设算力中心的巨额费用。同时,其对算力需求巨大,也有丰富的下游客户可以出售算力。

2023 年 10 月 17 日,美国商务部出台了出口管制清单的 ECNN 3A090 和 4A090 要求,以进一步限制高性能 AI 芯片的出口,同时将 13家中国公司列入实体清单。修改后的出国管制设计 产品包括但不限于:英伟达 A100、A800、H100、H800、L40、L40S 以及 RTX 4090 产品。由于美国对国内算力AI芯片的采购限制。目前算力中心和相关AI芯片已形成国内外两个市场。

国内巨大的算力市场带动了国产芯片厂商受益。近日,中国移动正式宣布建成全球运营商最大单体智算中心——中国移动智算中心(呼和浩特),目前已投产使用。该智算中心项目部署约2万张AI加速卡,AI芯片国产化率超85%。

中国联通近日也在北京建成了全国首个“政府+运营商”智算中心,算力中心继续沿用全国产化的昇腾AI基础软硬件。

此前,中国电信上海公司在上海点亮的“大规模算力集群暨人工智能公共算力服务平台”,是全国规模最大的运营商级智算中心,算力集群规模达15000卡,采用自主创新AI芯片。年初投入运营的中国电信中部智算中心也采用了基于国产AI基础软硬件平台的方案架构。

不难发现,国内算力中心多采用国产AI软硬件。目前GPU在AI芯片市场用量最大,目前国产AI芯片采购主要受益中国代表企业包括华为、海光信息、景嘉微、燧原科技等。去年百度为200台服务器便订购了1600片昇腾910B AI芯片。

据机构测算,受英伟达限令升级影响,2024年AI国产芯片新增市场空间将达到700亿以上。

国外其他主要市场在芯片采购方面收到的限制较小。全球AI芯片市场当前基本被以英伟达为代表的欧美大厂主导,业界数据显示,英伟达以80%的市占率几乎“垄断”AI芯片市场。此前英伟达的CEO黄仁勋还宣布,他们将在日本建立AI工厂,并且该工厂优先供应日本本土的GPU需求。

06

竞争加剧,大厂开始自研AI服务器芯片

目前普遍认为,人工智能热潮下,受益最多的是“卖铲子”的AI芯片厂商。数据显示,芯片成本在基础型服务器中约占总成本的32%,而在高性能或更强性能的服务器中,芯片成本占比高达 50%~83%。

过高的成本也导致有越来越多的互联网和IT设备大厂开始自研AI服务器芯片。

2016年,谷歌推出了自研的AI张量处理单元(TPU),2022年前后,谷歌开始研发基于Arm架构的服务器CPU,2024年4月,谷歌发布了自研Arm构架CPU——Axion,并宣布该芯片已经在内部使用。

2020年,微软开始为其Azure云服务定制芯片,2023年11月,微软推出了两款自研芯片——Maia100和Cobalt100。Maia100是一款专为大语言模型训练和推理而设计的芯片,采用台积电5nm制程,Cobalt100是一款基于Arm架构的128核服务器CPU。

今年4月初,Meta发布了新一代AI训练和推理加速器MTIA,其计算和内存带宽是上一代产品的两倍多,最新版本芯片有助于驱动Facebook和Instagram上的排名和推荐广告模型。

此前,有报道称,美国AI研究公司OpenAI正在与包括阿联酋政府在内的潜在投资者进行谈判,试图推动一个旨在提高全球芯片制造能力的项目,重塑全球半导体行业。其中一名知情人士透露,该计划准备筹集高达5万亿至7万亿美元。

此外国内大厂也不逞多让,开始研发AI芯片。近日,中国移动在其2024算力网络大会上正式发布大云磐石DPU,该芯片带宽达到400Gbps,为国内领先水平。