天天看点

AI网络新突破,阿里云将牵头制定下一代智算网络架构国际标准

作者:微笑

文/杨剑勇

自ChatGPT诞生以来,全球人工智能发展再跃升一个台阶,进入AI大模型时代。但大模型参数量和训练集规模大幅增加,仅靠GPU芯片单体算力提升已不能满足需求,业界目光转向系统架构层面的创新。其中,底层核心技术——网络,成为关键突破口,全球科技公司展开了一场最激烈的AI网络技术追逐赛。

在此背景下,中国AI网络迎来了新突破。最新消息称,阿里云自研的HPN7.0高性能AI智算集群网络,被国际学术界认可,成为SIGCOMM 顶会50余年历史上第一篇相关论文。就在昨日,国际超以太网联盟UEC公布了新一届技术委员会名单,阿里云成为唯一入选的中国公司,将牵头与微软、Meta等共同制定下一代AI网络架构标准 。

AI网络新突破,阿里云将牵头制定下一代智算网络架构国际标准

阿里云领衔,中国底层技术抢得AI下半场先机

最近一年,AI大模型爆火,而一个看似与AI完全不相关的国际开放组织UEC,却成为了科技巨头们争相加入、最炙手可热的组织。

在2023年7月,Linux基金会联合发起成立超以太网联盟(Ultra Ethernet Consortium,简称UEC)开放组织,致力于打造面向AI时代的超大规模新型网络技术及系统。基于当前以太网的开放、可互操作、高性能、全通信堆栈架构,满足HPC和AI对高带宽和低延迟需求。

简单来说,超以太网联盟就是在研发AI基础设施网络,以更好地支撑大模型训练和推理。这是AI技术领域最关键的底层技术,因此也吸引到全球最有实力的科技公司加入,微软、Meta、AMD、Intel、思科等等都是成员。

更为重要的是,超以太网联盟还承担国际技术标准制定的工作,这对于AI底层技术及上层应用的未来发展具有战略性意义。在超以太网联盟中,设有专门的技术委员会,负责制定技术路线图,把控核心技术及方向,协同推进各小组工作,并统筹所有技术提案及标准制定。

就在昨日,超以太网联盟技术委员会新增3名成员,阿里云成为入选的唯一中国公司,将与微软、Meta、AMD、博通等其他12名成员,共同推进开放网络系统及核心技术的研发及标准制定,打造下一代AI网络基础设施。

这是中国公司在超以太网联盟的最新突破。值得注意的是,阿里云在UEC技术委员会领衔,包括华为、字节、百度、新华三等中国公司都是UEC联盟中的重要成员。中国公司和中国技术正形成合力,在AI下半场角力中,发挥越来越重要的作用。

AI网络的中国新实践,有望取代谷歌成为新范式

生成式AI、大模型在全球如火如荼的发展,继而对算力需求也将大幅提升。来自信通院的数据显示,2023年全球计算设备算力规模为1369EFlops。大陆算力规模已达全球第二,且增速高于全球。

为了提升算力高效运载能力,2023年10月大陆印发《算力基础设施高质量发展行动计划》提到,不仅要强化算力接入网络能力,还要提升枢纽网络传输效率,包括加快400G/800G 高速光传输网络研发部署,推进算力基础设施高质量发展。

在此背景下,中国公司积极展开了一系列AI基础设施建设的前沿探索,而最新的成果,就来自阿里云。阿里云提出的HPN7.0架构被国际通信网络领域顶会SIGCOMM录用接收,成为首篇AI高性能网络架构的学术论文。

SIGCOMM是计算机网络领域资历最老的顶级学术会议,从计算机教科书里的TCP/IP网络协议到云数据中心经典架构,SIGCOMM见证了众多计算机网络关键技术的诞生与发展。

谷歌关于数据中心网络架构Jupiter,就是通过SIGCOMM树立了全球行业标杆,成为CPU时代最具代表性的网络架构。如今,阿里云HPN7.0新架构接棒,专家认为极有可能成为GPU时代网络架构的新范式。

HPN7.0针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。

基于HPN7.0的网络新架构,可支持高达10万卡量级的集群可扩展规模,高效连接异构计算资源,突破单一性能芯片瓶颈,真正让云计算成为一台智能的超级计算机。

前不久阿里云发布通义千问2.5版本大模型,中文性能全面赶超GPT-4Turbo,就是基于HPN7.0高性能网络集群训练而成。

GPU突围战,中国企业扛起开源开放系统大旗

HPN7.0的成功实践,证明了通过网络技术等底层系统架构的优化创新和异构计算资源整合,同样能支撑起超大规模参数的AI大模型训练。

通过体系创新,放大硬件潜能,形成从上往下的降维打击,这一技术迭代思路,在当下国际竞争中极具战略意义。更为难得的是,它完全扣准了全球主流科技巨头的技术选择。

事实上,当前 AI高性能网络有两个主要技术线路,一条是以英伟达主导的Infiniband体系,但这一架构相对封闭,可以理解为,基于英伟达GPU的InfiniBand基本变成了英伟达的私有协议,无法充分利用当前繁荣的以太网生态。

另一条则是UEC联盟所主导的开源开放标准体系,包括AMD、Intel、思科、博通等芯片和硬件公司都是创始成员,就是希望通过开源开放的技术合作促进创新,与英伟达在GPU为主的AI时代分庭抗礼,因此也被成为AI网络领域的苹果(对应英伟达)与安卓(对应UEC联盟)之争。

这无疑是中国技术的战略新机会。当年,国产智能手机崛起,与开源的安卓系统密不可分。依赖于开源技术,中国手机从整机制造,到操作系统,再到目前的芯片,正逐步推动从上至下的全面自研,继而贡献于国际开源社区,对全球的手机技术进步同样作出了突出贡献。

有理由相信,随着中国AI自研技术积累和突破日益增多,以及阿里云等中国公司在开放的UEC联盟中发挥越来越重要的作用,在AI这个未来必争的技术高地上,中国的底气会越来越足,声音也会越来越响亮。

杨剑勇,福布斯中国撰稿人,表达观点仅代表个人。致力于深度解读物联网、云服务、人工智能和智能家居等前沿科技。

继续阅读