為現代AI計算打造？IBM AIU晶片：5nm制程32核心，230億個半導體

今年10月，IBM釋出了旗下首款人工智能計算單元（Artificial Intelligent Unit，AIU）片上系統，這是一種專用內建電路 (ASIC)，旨在更快、更高效地訓練和運作需要大規模并行計算的深度學習模型。

AIU：專為現代AI計算打造

在過去多年來，業界主要是利用CPU、GPU來運作深度學習模型，但是随着人工智能模型的數量正呈指數級增長，同時深度學習模型也越來越龐大，有數十億甚至數萬億的參數，需要的算力也是越來越高，而CPU、GPU這類傳統架構的晶片的AI算力增長已經遇到了瓶頸。

△深度神經網絡對于算力的需求增長迅速

根據 IBM 的說法，深度學習模型傳統上依賴于 CPU 和 GPU 協處理器的組合來訓練和運作模型。CPU 的靈活性和高精度非常适合通用軟體應用程式，但是，在訓練和運作需要大規模并行 AI 操作的深度學習模型時，CPU卻處于劣勢。GPU最初是為渲染圖形圖像而開發的，但後來該技術發現了在AI計算中使用的優勢。但是，CPU和GPU都是在深度學習革命之前設計的，現在他們的效率增長已經落後于深度學習對于算力的指數級增長，業界真正需要的是針對矩陣和向量乘法運算類型進行優化的通用晶片來進行深度學習。

基于此，IBM Research AI Hardware Center在過去五年中一直專注于開發下一代晶片和人工智能系統，希望以每年将人工智能硬體效率提高 2.5 倍，并能夠在 2029 年以比 2019 年快1000倍的速度訓練和運作人工智能模型。而最新AIU晶片則是IBM推出的首款針對現代 AI 統計資料定制的晶片。

IBM表示，AIU是專為加速深度學習模型使用的矩陣和向量計算而設計和優化。AIU 可以解決計算複雜的問題，并以遠遠超過 CPU 能力的速度執行資料分析。

那麼IBM AIU是如何實作針對深度學習優化的呢？答案是：“近似計算”＋“簡化人工智能工作流程”。

擁抱低精度，采用近似計算

從曆史上看，很多AI計算依賴于高精度 64 位和 32 位浮點運算。IBM 認為AI計算并不總是需要這種精确度。它有一個降低傳統計算精度的術語——“近似計算”。在其部落格中，IBM 解釋了使用近似計算的基本原理：

“對于常見的深度學習任務，我們是否需要這種準确度？我們的大腦是否需要高分辨率圖像來識别家庭成員或貓？當我們輸入一個文本線程進行搜尋時，我們是否需要第 50,002 個最有用的回複與第 50,003 個最有用的回複的相對排名的精度？答案是，包括這些示例在内的許多任務都可以通過近似計算來完成。”

基于此，IBM 首創了的一種稱為近似計算的技術，可以從32位浮點運算下降到包含四分之一資訊的混合8位浮點(HFP8) 計算格式。這種簡化的格式極大地減少了訓練和運作 AI 模型所需的數字運算量，并且不會犧牲準确性。

更精簡的位格式還減少了另一個對速度的拖累：隻需将更少的資料移入和移出記憶體，即運作AI模型對于記憶體的占用更少了。

IBM在其新的AIU晶片的設計當中融入了近似計算技術，使得AIU晶片的精度需求大幅低于 CPU 所需的精度。較低的精度對于在新的 AIU 硬體加速器中實作高計算密度至關重要。AIU使用混合 8 位浮點 (HFP8) 計算，而不是通常用于 AI 訓練的32位浮點或16位浮點運算。較低精度的計算使晶片的運作速度比 FP16 計算快 2 倍，同時提供類似的訓練結果。

雖然低精度計算對于獲得更高的密度和更快的計算是必要的，但深度學習 (DL) 模型的精度必須與高精度計算保持一緻。

簡化人工智能工作流程

由于大多數 AI 計算都涉及矩陣和向量乘法，是以IBM AIU晶片架構具有比多用途 CPU 更簡單的布局。IBM AIU還針對将資料直接從一個計算引擎發送到另一個計算引擎進行設計，進而節省大量能耗。

據IBM介紹，其AIU晶片是一個完整的片上系統，是基于IBM此前的Telum晶片（7nm工藝）中内置的經過驗證的 AI 加速器的擴充版本，并且采用了更先進的5nm制程工藝，具有 32 個處理核心并包含 230 億個半導體。IBM AIU 還被設計為像顯示卡一樣易于使用。它可以插入任何帶有 PCIe 插槽的計算機或伺服器。

IBM表示，“部署 AI 對照片中的貓和狗進行分類是一項有趣的學術活動。但它不會解決我們今天面臨的緊迫問題。我們要讓 AI 解決現實世界的複雜性——比如預測下一個飓風伊恩，或者我們是否正在走向衰退——我們需要企業級的工業級硬體。我們的 AIU 讓這一願景更近了一步。”

IBM AIU表現如何？

IBM并未在其官網公布更多關其AIU晶片的技術資訊。不過，我們可以通過回顧 IBM在 2021 年國際固态電路會議（ISSCC）上展示其早期 7nm 晶片設計的性能結果時的初始原型示範來對其性能有所了解。

IBM 用于會議示範的原型不是 32 個核心，而是一個實驗性的 4 核 7nm AI 晶片，支援 FP16 和混合FP8 格式，用于訓練和推理深度學習模型。它還支援用于擴充推理的 int4 和 int2 格式。2021 年 Lindley Group通訊中包含了原型晶片性能的摘要，該通訊報道了 IBM 當年的示範：

在峰值速度下，使用 HFP 8，該7nm晶片實作了每秒每瓦特 (TF/W) 1.9 teraflops。
使用INT4進行推理，該實驗晶片達到16.5 TOPS/W，優于高通低功耗Cloud AI模組。

考慮到IBM AIU是該測試晶片的擴充版本，并且制程工藝也更新到了5nm，是以預計其整體能效将進一步提升，同時随着核心數量由4核上升到32核，其整體的峰值算力有望提升超過8倍。

Forbes的分析師認為，由于缺乏資訊，無法将IBM的AIU與目前被用于AI計算的GPU相比較。但是，預計該晶片的價格将會在1500 美元到 2000 美元之間。

編輯：芯智訊-浪客劍

為現代AI計算打造？IBM AIU晶片：5nm制程32核心，230億個半導體

繼續閱讀

IPU加速前沿AI計算技術在科研領域應用

顯控和AI計算機方案趨勢

很多人對新興資訊技術不了解，來看圖，這就是最新的AIGC概念作品，全部由計算機算法在網絡搜集素材，結合讀者指令，自動生成

全新vivo自研晶片V2首發自研FIT技術，讓手機進入了超高速雙芯協同時代，同時重新建構片上記憶體單元、AI計算單元及圖像

音頻晶片加入AI計算單元，就可以做得到聽懂聲音了，真的，要不是蘋果已經推出AppleMusic唱歌，領先一步推出了聲音分

OPPO無限雲相冊，據說是無限雲存儲，不限空間。而且可以精準搜尋，雲端AI計算給圖檔打上标記。而且辦公空間也是無限的，很

ChatGPT4個門檻是1萬枚英偉達A100GPU晶片的AI計算叢集。别說目前A100買不到，就算有，怎麼搭建訓練，核心

【科技資訊-ChatGPT】ChatGPT開啟聯網，AI迎來AppStore時刻，應用體驗将被徹底颠覆。今天淩晨（3月2

低延遲時間AI計算叢集網絡，ChatGPT成功離不開的“金牌輔助”

每經操盤必知（早間版）丨華為孟晚舟：到2030年通用計算能力将增長10倍，AI計算能力将增長500倍；“美國版百度貼吧”Reddit将向OpenAI收取資料使用費

Meta首次公開自研AI晶片的進展，預計該晶片将于2025年正式問世。該晶片名為MetaTrainingandInfer

英偉達推出專為AI設計的超級計算機叢集，DGXGH200！英偉達剛剛在Computex上釋出了DGXGH200超級晶片平

英偉達的跨平台AI計算服務商之夢！（邊緣計算篇）

這讓英偉達、英特爾還怎麼淡定？那邊遊說拜登政府還沒開始，這邊中國新一代自主#AI加速卡#卻替補上場了！今天，高性能通用A

以“GPU”為代表的AI計算資源中短期将處于供不應求的狀态

vivo解密AI計算攝影，如何讓移動攝影更懂你我？