解决网络 I/O 问题各辟蹊径
过去几个月,OpenAI ChatGPT、谷歌Bard、百度文心一言等AI 应用程序持续爆火。人工智能问题规模和用户服务规模的指数级增长加大了对GPU、CPU、加速器、内存和存储的需求。
目前,内存容量和GPU 性能都在快速增长,而网络作为重要的连接桥梁,I/O 却没有跟上步伐,IO 带宽滞后于加速计算扩展两个数量级,导致资源滞留和未充分利用,昂贵的GPU和其他加速器处于闲置状态。
网络 I/O 性能跟不上 GPU 计算性能
包括行业巨头英伟达在内的其他公司都使用专有接口解决方案来解决这一网络问题,而网络芯片初创公司Enfabrica却“剑走偏锋”,提供了另一种扩展方式,选择使用PCIe和CXL等行业标准与开源软件框架相结合。
Enfabrica 推出了针对人工智能和加速计算工作负载优化的新型加速计算结构 (ACF) 芯片,旨在在 GPU、CPU、加速器ASIC、内存和网络设备之间提供可扩展的、流式的、每秒多太比特的数据移动,同时降低云网络的总成本。
ACF 的出现与日益盛行的将智能放在交换机本身、网络接口卡内部的做法背道而驰,甚至减少了对 DPU/ IPU 的需求。
明星光环加持的初创公司
Enfabrica成立于 2020 年,虽然成立时间不长,但创始团队却都大有来头。
明星团队
- 首席执行官 Rochan Sankar 曾是博通的产品营销和管理总监,推动了五代“Trident”和“Tomahawk”数据中心交换机 ASIC ;
- 首席开发官 Shrijeet Mukherjee曾在思科、Cumulus Networks 、谷歌等公司就职;
- 芯片设计总监Mike Jorda曾在博通负责数据中心芯片设计21年;
- 系统测试总监Michael Goldflam 曾在博通负责交换软件15年;
- 软件工程VP Carlo Contavalli 曾在谷歌负责软件工程12年;
- 首席架构师Thomas Norrie 曾在谷歌负责硬件12年;
- 芯片架构师Gavin Starks 曾是智能网卡公司Netronome Systems 的首席技术官;
该公司的创始顾问是 Christos Kozyrakis,是斯坦福大学电气工程和计算机科学教授,也是MAST的负责人,曾在谷歌和英特尔等组织做过研究;另一位重量级顾问是 Albert Greenberg,他目前是 Uber 的平台工程副总裁,在微软负责 Azure Networking 十多年,在此之前,他是 AT&T 贝尔实验室的网络专家。拥有大规模数据分析专业知识的康奈尔大学副教授 Rachit Agarwal 也是Enfabrica的顾问。
从人员配置中可以看出这个团队不仅了解数据中心,还知道如何将产品推向市场。
ACF-S
据介绍,Enfabrica 的新型创新ACF设备启用计算、内存和网络资源的可组合 AI 结构,可从单个系统扩展到数万个节点。通过 ComputeExpressLink (CXL) 桥接在现有 GPU 网络上提供对 >50X DRAM 扩展的无竞争访问。
折叠多个网络层以提高性能
Enfabrica 的设计核心是寻求用其加速计算结构替换多层网络基础设施(如上图)。Sankar 解释说,Enfabrica 架构“充当中心辐射模型”,可以“分解和扩展任意计算资源”,“无论是 CPU、GPU、加速器、内存还是闪存,它们都可以连接到这个集线器,(它)有效地充当着聚合 I/O 结构设备。”
Enfabrica 的第一款芯片,即ACF-S,是在台积电的5纳米FinFET工艺上制造的,采用完全基于标准的硬件和软件接口,包括多端口800 GbE网络和高性能 PCIe Gen5 以及CXL 2.0+ 接口。
Enfabrica 第一代multi-Tbps fabric silicon IC架构
在不改变设备驱动程序之上的物理接口、协议或软件层的情况下,ACF-S 在单个硅片中提供多太比特交换、异构计算和内存资源之间的桥接,同时显著减少设备数量、I/O 延迟跳数、架顶网络交换机、RDMA-over-Ethernet NIC、Infiniband HCA、PCIe/CXL 交换机和 CPU 连接的 DRAM 所消耗的 AI 集群中的设备功耗。Sankar解释道,该芯片像个“三明治”,也就是“高性能以太网交换管道,一个大型共享缓冲区,即所谓的terabit NIC 复制引擎,以及高性能PCIe Gen5和CXL 2.0+交换。”
下图将ACF 系统与英伟达的 DGX-H100 系统和Meta的Grand Teton AI 服务器进行了比较。Enfabrica 表示ACF系统将比DGX-H100和 Grand Teton 系统的产品更具有成本、规模和性能优势。
综上所述,Enfabrica 的新型创新 ACF 设备优势包括:
- 在 GPU、CPU、加速器、内存和网络设备之间提供可扩展的、流式的、每秒多太比特的数据移动。
- 采用 100% 基于标准的硬件和软件接口。
- 消除当今架顶式网络交换机、服务器 NIC、PCIe 交换机和 CPU 控制的 DRAM 中的延迟层并优化接口瓶颈。
- 启用计算、内存和网络资源的可组合 AI 结构,从单个系统到数万个节点。
- 通过 ComputeExpressLink (CXL) 桥接在现有 GPU 网络上提供对 >50X DRAM 扩展的无竞争访问。
无需等待 CXL 3.0 即可扩展和共享内存
目前,CXL 硬件生态系统仍不成熟,CXL 3.x 组件(包括 CPU、GPU、交换机和内存扩展器)仍在开发中。CXL 3.0协议可以为具有近内存和远内存混合的系统提供真正的内存共享,但要到2027年,CXL 3.0级组件才会提供真正的内存池。
据介绍,ACF 能够扩展内存并将其池化,以便跨计算引擎共享,甚至无需等待 PCI-Express 6.0 互连和CXL 3.0协议。
Enfabrica表示ACF使用标准接口,不需要更改 AI/ML IT 堆栈中的应用程序、计算、存储和网络元素,在 CXL 3.0 到来之前提供对分解内存的访问,而且未来将支持 CXL 3.0 并且不会破坏该标准。
存储层次结构图
目前还不知道未来ACF 芯片将如何以 CXL 3.0 的方式带来内存池和共享。
200 亿美元市场
据悉,到2033年整个数据中心市场将达到2万亿美元(如下图)。根据650 Group 的数据,到 2027 年,数据中心在计算、存储和网络芯片上的高性能 I/O 芯片支出预计将翻一番,达到 200 亿美元以上。
下个十年整个数据中心市场将达到2万亿美元
据 Enfabrica 介绍,将ACF解决方案与 CXL 内存应用于生成式 AI 工作负载,可以将用户上下文大规模并行动态分派到 GPU。模拟测试表明,与市场上最新的“bigiron”GPU服务器相比,启用ACF的系统仅使用一半的GPU和CPU主机数量就实现了相同的目标推理性能。
此外, ACF-S 芯片使客户能够在相同的性能点上将大型语言模型 (LLM) 推理的 GPU 计算成本降低约 50%,深度学习推荐模型 (DLRM) 推理的成本降低 75%。
Enfabrica表示,ACF 芯片的目标市场是公有和私有云运营商、HPC 和网络系统构建商。它可以帮助客户移除现有的互连组件,释放空间并降低机架中组件的复杂性。链接速度也将大幅提高,从而提高加速器利用率,缩短 AI 模型训练运行时间并降低成本。
但集实力与光环于一身的Enfabrica能否得到市场的认可,还需时间来检验。