解決網絡 I/O 問題各辟蹊徑
過去幾個月,OpenAI ChatGPT、谷歌Bard、百度文心一言等AI 應用程式持續爆火。人工智能問題規模和使用者服務規模的指數級增長加大了對GPU、CPU、加速器、記憶體和存儲的需求。
目前,記憶體容量和GPU 性能都在快速增長,而網絡作為重要的連接配接橋梁,I/O 卻沒有跟上步伐,IO 帶寬滞後于加速計算擴充兩個數量級,導緻資源滞留和未充分利用,昂貴的GPU和其他加速器處于閑置狀态。
網絡 I/O 性能跟不上 GPU 計算性能
包括行業巨頭英偉達在内的其他公司都使用專有接口解決方案來解決這一網絡問題,而網絡晶片初創公司Enfabrica卻“劍走偏鋒”,提供了另一種擴充方式,選擇使用PCIe和CXL等行業标準與開源軟體架構相結合。
Enfabrica 推出了針對人工智能和加速計算工作負載優化的新型加速計算結構 (ACF) 晶片,旨在在 GPU、CPU、加速器ASIC、記憶體和網絡裝置之間提供可擴充的、流式的、每秒多太比特的資料移動,同時降低雲網絡的總成本。
ACF 的出現與日益盛行的将智能放在交換機本身、網絡接口卡内部的做法背道而馳,甚至減少了對 DPU/ IPU 的需求。
明星光環加持的初創公司
Enfabrica成立于 2020 年,雖然成立時間不長,但創始團隊卻都大有來頭。
明星團隊
- 首席執行官 Rochan Sankar 曾是博通的産品營銷和管理總監,推動了五代“Trident”和“Tomahawk”資料中心交換機 ASIC ;
- 首席開發官 Shrijeet Mukherjee曾在思科、Cumulus Networks 、谷歌等公司就職;
- 晶片設計總監Mike Jorda曾在博通負責資料中心晶片設計21年;
- 系統測試總監Michael Goldflam 曾在博通負責交換軟體15年;
- 軟體工程VP Carlo Contavalli 曾在谷歌負責軟體工程12年;
- 首席架構師Thomas Norrie 曾在谷歌負責硬體12年;
- 晶片架構師Gavin Starks 曾是智能網卡公司Netronome Systems 的首席技術官;
該公司的創始顧問是 Christos Kozyrakis,是斯坦福大學電氣工程和計算機科學教授,也是MAST的負責人,曾在谷歌和英特爾等組織做過研究;另一位重量級顧問是 Albert Greenberg,他目前是 Uber 的平台工程副總裁,在微軟負責 Azure Networking 十多年,在此之前,他是 AT&T 貝爾實驗室的網絡專家。擁有大規模資料分析專業知識的康奈爾大學副教授 Rachit Agarwal 也是Enfabrica的顧問。
從人員配置中可以看出這個團隊不僅了解資料中心,還知道如何将産品推向市場。
ACF-S
據介紹,Enfabrica 的新型創新ACF裝置啟用計算、記憶體和網絡資源的可組合 AI 結構,可從單個系統擴充到數萬個節點。通過 ComputeExpressLink (CXL) 橋接在現有 GPU 網絡上提供對 >50X DRAM 擴充的無競争通路。
折疊多個網絡層以提高性能
Enfabrica 的設計核心是尋求用其加速計算結構替換多層網絡基礎設施(如上圖)。Sankar 解釋說,Enfabrica 架構“充當中心輻射模型”,可以“分解和擴充任意計算資源”,“無論是 CPU、GPU、加速器、記憶體還是閃存,它們都可以連接配接到這個集線器,(它)有效地充當着聚合 I/O 結構裝置。”
Enfabrica 的第一款晶片,即ACF-S,是在台積電的5納米FinFET工藝上制造的,采用完全基于标準的硬體和軟體接口,包括多端口800 GbE網絡和高性能 PCIe Gen5 以及CXL 2.0+ 接口。
Enfabrica 第一代multi-Tbps fabric silicon IC架構
在不改變裝置驅動程式之上的實體接口、協定或軟體層的情況下,ACF-S 在單個矽片中提供多太比特交換、異構計算和記憶體資源之間的橋接,同時顯著減少裝置數量、I/O 延遲跳數、架頂網絡交換機、RDMA-over-Ethernet NIC、Infiniband HCA、PCIe/CXL 交換機和 CPU 連接配接的 DRAM 所消耗的 AI 叢集中的裝置功耗。Sankar解釋道,該晶片像個“三明治”,也就是“高性能以太網交換管道,一個大型共享緩沖區,即所謂的terabit NIC 複制引擎,以及高性能PCIe Gen5和CXL 2.0+交換。”
下圖将ACF 系統與英偉達的 DGX-H100 系統和Meta的Grand Teton AI 伺服器進行了比較。Enfabrica 表示ACF系統将比DGX-H100和 Grand Teton 系統的産品更具有成本、規模和性能優勢。
綜上所述,Enfabrica 的新型創新 ACF 裝置優勢包括:
- 在 GPU、CPU、加速器、記憶體和網絡裝置之間提供可擴充的、流式的、每秒多太比特的資料移動。
- 采用 100% 基于标準的硬體和軟體接口。
- 消除當今架頂式網絡交換機、伺服器 NIC、PCIe 交換機和 CPU 控制的 DRAM 中的延遲層并優化接口瓶頸。
- 啟用計算、記憶體和網絡資源的可組合 AI 結構,從單個系統到數萬個節點。
- 通過 ComputeExpressLink (CXL) 橋接在現有 GPU 網絡上提供對 >50X DRAM 擴充的無競争通路。
無需等待 CXL 3.0 即可擴充和共享記憶體
目前,CXL 硬體生态系統仍不成熟,CXL 3.x 元件(包括 CPU、GPU、交換機和記憶體擴充器)仍在開發中。CXL 3.0協定可以為具有近記憶體和遠記憶體混合的系統提供真正的記憶體共享,但要到2027年,CXL 3.0級元件才會提供真正的記憶體池。
據介紹,ACF 能夠擴充記憶體并将其池化,以便跨計算引擎共享,甚至無需等待 PCI-Express 6.0 互連和CXL 3.0協定。
Enfabrica表示ACF使用标準接口,不需要更改 AI/ML IT 堆棧中的應用程式、計算、存儲和網絡元素,在 CXL 3.0 到來之前提供對分解記憶體的通路,而且未來将支援 CXL 3.0 并且不會破壞該标準。
存儲層次結構圖
目前還不知道未來ACF 晶片将如何以 CXL 3.0 的方式帶來記憶體池和共享。
200 億美元市場
據悉,到2033年整個資料中心市場将達到2萬億美元(如下圖)。根據650 Group 的資料,到 2027 年,資料中心在計算、存儲和網絡晶片上的高性能 I/O 晶片支出預計将翻一番,達到 200 億美元以上。
下個十年整個資料中心市場将達到2萬億美元
據 Enfabrica 介紹,将ACF解決方案與 CXL 記憶體應用于生成式 AI 工作負載,可以将使用者上下文大規模并行動态分派到 GPU。模拟測試表明,與市場上最新的“bigiron”GPU伺服器相比,啟用ACF的系統僅使用一半的GPU和CPU主機數量就實作了相同的目标推理性能。
此外, ACF-S 晶片使客戶能夠在相同的性能點上将大型語言模型 (LLM) 推理的 GPU 計算成本降低約 50%,深度學習推薦模型 (DLRM) 推理的成本降低 75%。
Enfabrica表示,ACF 晶片的目标市場是公有和私有雲營運商、HPC 和網絡系統建構商。它可以幫助客戶移除現有的互連元件,釋放空間并降低機架中元件的複雜性。連結速度也将大幅提高,進而提高加速器使用率,縮短 AI 模型訓練運作時間并降低成本。
但集實力與光環于一身的Enfabrica能否得到市場的認可,還需時間來檢驗。