新的選擇，英特爾全新Gaudi2處理器會帶來哪些改變？

作者：李祥敬

如今，大模型驅動的算力需求持續激增，雖然GPU是首選，但是算力基礎設施也需要新的處理器組合，讓使用者擁有更多的選擇。

近日，英特爾面向中國市場推出第二代Gaudi深度學習加速器——Habana Gaudi2。憑借成本效益優勢，Gaudi2可以提供更高的深度學習性能和效率，進而成為大規模部署AI的更優解。

英特爾執行副總裁兼資料中心與人工智能事業部總經理Sandra Rivera表示，如今，人工智能是行業中最具颠覆性的技術，正在對我們的生活産生極大的影響。幾乎每個行業都在尋求部署AI的方式，以提高生産力并推動創新。基于此，英特爾也正在與廣泛市場細分領域的客戶積極合作，緻力于成功将AI部署到他們的業務中。

英特爾積極推動AI落地

近期火爆的生成式AI和LLM（大規模語言模型）極大地加速了AI的發展，并衍生出了諸多計算需求。

AI的資料流包括廣泛而複雜的工作負載和多模态資料集。而面對AI的計算需求，并沒有一種通用的解決方案。通用處理器廣泛應用于資料攝取階段和經典機器學習中，用于訓練中小型模型。x86架構的大規模普及和其内置的AI能力使通用處理器已經成為解決AI資料流的理想解決方案。

Sandra Rivera說，英特爾緻力于讓客戶更易于在計算發生的任何地方部署AI。例如第四代英特爾至強可擴充處理器中內建AI加速器——AMX人工智能加速引擎，與上一代相比，可以提供高達10倍的人工智能推理和訓練性能提升。

除了硬體級創新産品，英特爾在軟體堆棧工具方面也持續投入，比如oneAPI和OpenVINO、Pytorch、TensorFlow和DeepSpeed，為開發人員提供了使用硬體架構的開放性和可選擇性。

“英特爾與開放的生态系統合作擴充技術方面久經考驗，通過對開發者生态系統、工具、技術和開放平台的長期投入，使客戶能夠在其基礎設施中已有的通用處理器上面輕松部署AI。”Sandra Rivera說。

全新Gaudi2訓練加速器

管英特爾至強可擴充處理器可以運作諸多AI工作負載，但為了支援更大的模型規模和滿足廣泛的系統需求，需要采用異構計算的方法，使用不同的計算架構。而Gaudi深度學習加速器通過大語言模型進一步豐富了英特爾的人工智能産品陣列。

Gaudi2深度學習加速器暨Gaudi2夾層卡HL-225B，以第一代Gaudi高性能架構為基礎，以多方位性能與能效比提升，加速高性能大語言模型運作。該加速器具備：24個可程式設計Tensor處理器核心（TPCs）、21個100 Gbps（RoCEv2）以太網接口、96GB HBM2E記憶體容量、2.4TB/秒的總記憶體帶寬、48MB片上SRAM、內建多媒體處理引擎。

Habana Labs首席營運官Eitan Medina表示，Gaudi2能夠為中國客戶帶來價值的關鍵因素在于它的傑出性能、可擴充性、全方位的能效比提升、易用性。

Gaudi2加速器的出色性能在6月公布的MLCommons MLPerf基準測試中得到了充分認證，其在GPT-3模型、計算機視覺模型ResNet-50（使用8個加速器）、Unet3D（使用8個加速器），以及自然語言處理模型BERT（使用8個和64個加速器）上均取得了優異的訓練結果。與市場上其他面向大規模生成式AI和大語言模型的産品相比，Gaudi2擁有卓越的性能與領先的成本效益優勢，能夠幫助使用者提升營運效率的同時，降低營運成本。

此外，Gaudi2可為大規模的多模态和語言模型提供出色的推理性能。在最近的Hugging Face評估中，其在大規模推理方面的表現，包括在運作Stable Diffusion（另一個用于從文本生成圖像的最先進生成式AI模型之一）、70億以及1760億參數BLOOMz模型時，在行業内保持領先。

生成式AI和LLM的計算需求需要大規模的擴充，Gaudi2深度學習加速器的架構旨在高效擴充，以滿足大規模語言模型及生成式AI模型的需求。其每張晶片內建了21個專用于内部互聯的100Gbps（RoCEv2 RDMA）以太網接口，進而實作低延遲伺服器内擴充。

在Stable Diffusion訓練上，Gaudi2展示了從1張卡至64張卡近線性99%的擴充性。此外，MLCommons剛剛公布的MLPerf訓練3.0結果，亦驗證了Gaudi2處理器在1750億參數的GPT-3模型上，從256個加速器到384個加速器可實作令人印象深刻的接近線性的95%擴充效果。

英特爾緻力于支援客戶輕松建構新模型，以及将目前基于GPU的模型業務和系統遷移到全新Gaudi伺服器。基于此，英特爾打造了針對Gaudi平台深度學習訓練和推理優化的SynapseAI軟體套件。

攜手中國生态加速Gaudi2落地

除了創新的硬體産品，英特爾通過開放的生态，加速AI的落地。比如百度智能雲通過內建英特爾AMX加速引擎的第四代英特爾至強可擴充處理器為ERNIE-Tiny模型帶來了多倍的性能優化。

百度智能雲伺服器進階經理何永占介紹說，基于AMX加速引擎的第四代至強可擴充處理器，百度和英特爾攜手開展了多項的性能優化工作。如引擎優化提升處理效率，利用oneDNN，實作對AMX指令的高效調用和記憶體性能優化，為百度ERNIE聽譯版，也就是百度飛槳文心大模型輕量版帶來了2.66倍的性能優化，取得了令人滿意的效果。

目前，英特爾正與浪潮資訊合作，打造并發售基于Gaudi2深度學習加速器的浪潮資訊AI伺服器NF5698G7。

浪潮資訊AI&HPC産品線總經理劉軍表示，浪潮資訊這次推出的NF5698G7伺服器在6U空間支援8顆基于開放加速模組OAM高速互聯的Gaudi2 AI加速器，每顆Gaudi2晶片配置96GB HBM高速記憶體，共提供2.1Tbps的P2P互聯帶寬，支援全互聯拓撲，滿足大模型訓練張量并行的通信需求；搭載2顆第四代至強處理器，支援AMX/DSA等AI加速引擎。

NF5698G7基于全球開放計算OCP開放加速器規範OAM/UBB進行産品設計，支援PyTorch、TensorFlow等主流AI架構和Megatron/DeepSpeed等流行開發工具，為生成式AI提供成熟、高成本效益的開放生态産品方案。

除了浪潮資訊，新華三和超聚變也将推出基于Gaudi2的伺服器産品。

結語

幾十年來，英特爾一直緻力于為中國市場提供領先的基于标準的資料中心異構産品組合，使他們能夠在任何地方部署人工智能。

“我們将繼續緻力于通用計算的開放生态系統建設，并通過Gaudi2深度學習加速器提供更高的深度學習訓練性能，并提高使用者的生産力，助力中國加速部署和應用AI。”Sandra Rivera最後說。