天天看点

挑战谷歌!中国公司争夺AI网络标准

作者:平安江苏

刚刚,超以太网联盟UEC技术咨询委员会选出新成员,阿里云成为13名成员中唯一的中国公司,将携手微软、Meta、AMD、博通等科技巨头,推进开放网络的研发及标准制定,打造下一代AI网络基础设施。

而就在前几日,阿里云打造的AI高性能网络HPN7.0论文入选顶级国际学术会议SIGCOMM,引发业界热议,专家指出,这一架构极有可能取代此前谷歌提出的Jupiter架构,而成为下一代AI网络架构标准。

随着大模型浪潮席卷而来,AI基础设施成为科技巨头们竞相角力的最火热战场,而这次,中国占据了难得的先机。

挑战谷歌!中国公司争夺AI网络标准

规模提升16倍!

超高性能网络为中国AI大模型提速

众所周知,大模型需要大算力。在算力资源极度紧张的当下,只有通过系统架构的创新,才能实现AI的弯道超车。高稳定、高性能的网络,则是支撑这一AI基础设施的关键底层技术。

网络架构及技术来源于西方,也被西方垄断。谷歌2015年提出的数据中心网络朱庇特(Jupiter)架构,是最主流的技术线路,主导了业界数据中心网络架构的设计。

直到2023年9月,阿里云推出新一代HPN7.0架构,宣告完成全球首个AI高性能网络集群的突破;大半年后,HPN7.0论文被收录进国际顶会SIGCOMM,国际学术界第一次官方认可了这一重磅新技术。

专家表示,HPN7.0极有可能取代谷歌经典的朱庇特架构,而成为下一代AI网络主流架构范式和标准。

HPN7.0不是翻修、精装,而是系统性重构。用一个通俗的比喻,以往的房子能住10个人,好的科技公司一番操作可以往这房子里塞15人,而阿里云直接重新设计打造了一个能容纳100人的房子。

一组数据显示,在传统通用计算集群架构下,单层交换机最多支持16~64张GPU极致性能的直接互联;阿里云AI智算集群架构HPN7.0,单层交换机可以支持1024张GPU直接互联。相当于极致性能互联的规模直接提升16倍!这就给AI大模型的训练及推理带来足够大的网络性能保障。

挑战谷歌!中国公司争夺AI网络标准

HPN7.0架构:为AI设计的高性能网络集群

基于HPN7.0打造的阿里云AI基础设施,可高效协同调度各类芯片,支持高达10万卡量级的集群可扩展规模,实现网络的高性能和高稳定互联,让超大集群像一台计算机般高效运转,帮助大模型训练较上代提升性能14.9%。

前不久阿里云发布通义千问2.5版本大模型,中文性能全面赶超GPT-4Turbo,就是基于HPN7.0高性能网络集群训练而成。

可以想见,未来,国内所有公司都能通过阿里云而获得高质量的AI网络服务,将大大有利于中国大模型发展及应用落地。

拥抱开源

阿里云牵头制定AI智算网络的“安卓”标准

目前,AI高性能网络有两个主要标准,一种是英伟达主导的私有标准InfiniBand,另一种则是RoCE v2(基于融合以太网的RDMA网络)。

这两种标准犹如网络领域的苹果和安卓:一个自给自足,基本封闭;一个开源开放,最具活力。选择哪一种标准,基本上就选择了那种标准代表的全套设备、系统、软件及应用。

这其中,尤以Linux基金会发起成立开源组织——超以太网联盟UEC发展最为迅速,科技巨头纷纷加入,让UEC成为当下最热门、发展最火热的AI基础设施相关组织。

挑战谷歌!中国公司争夺AI网络标准

最新消息显示,在UEC最核心的技术委员会选举中,阿里云成功入选,成为唯一的中国公司成员!这意味着,在下一代开放网络的核心技术研发决策方面,首次出现中国科技公司身影,阿里云将连同微软、Meta、AMD、博通等科技巨头,一起参与核心决策及标准制定!

知情人士透露称,UEC技术委员会成员席位竞争十分激烈,只有技术实力过硬、对开源社区贡献大的成员才能通过选举投票当选。阿里巴巴是AMiner全球十大网络研究机构中唯一的中国公司,阿里云也是开放网络SONiC社区7个发起成员之一和技术委员会副主席单位。专家指出,此次入选UEC技术委员会,充分证明了中国网络技术已经得到了业界同行的充分认可。

有消息透露,基于HPN7.0的大规模实践,阿里云正牵头推进面向AI需求的网络性能提升项目等技术草案,而这一方向恰巧就是UEC对未来技术布局最重要的方向之一。

从落后到赶超,再到如今参与决策未来技术方向和标准制定,以阿里云为代表的中国科技公司,默默耕耘十余年,才能在这个AI大时代的底层网络基础设施领域持续突破,让中国方案打破垄断,成为全球通用的开放技术标准,让AI更好更快地服务于人类世界。

来源:观察者网

继续阅读