天天看點

MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣

作者:Python部落

MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣

報道

來源:專知

編輯:Aeneas

【導讀】本文更新了近三年來人工智能加速器和處理器的研究進展。

MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣

htt

ps://github.com/areuther/ai-accelerators

本文更新了近三年來人工智能加速器和處理器的研究進展,收集和總結了目前已公開公布的具有峰值性能和功耗數字的商用加速器。

性能和功率值繪制在散點圖上,并再次讨論和分析該圖上趨勢的多個次元和觀察結果。

今年的論文中包含了兩個基于加速器釋出日期的新趨勢圖,以及一些神經形态的、光子的和基于憶阻的推斷加速器的附加趨勢。

引言

就像去年一樣,初創公司和老牌科技公司釋出、釋出和部署人工智能(AI)和機器學習(ML)加速器的速度一直很緩慢。

這并非沒有道理;對于許多已經釋出加速器報告的公司來說,他們已經花了三到四年的時間進行研究、分析、設計、驗證和驗證他們的加速器設計權衡,并建構了為加速器程式設計的軟體堆棧。

對于那些釋出了後續版本加速器的公司來說,他們報告的開發周期更短了,盡管仍然至少是兩三年。

這些加速器的重點仍然是加速深度神經網絡(DNN)模型,應用空間從極低功耗嵌入式語音識别和圖像分類到資料中心規模的訓練,而定義市場和應用領域的競争繼續作為現代計算向機器學習解決方案的更大的工業和技術轉移的一部分。

MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣

AI生态系統将嵌入式計算(邊緣計算)、傳統高性能計算(HPC)和高性能資料分析(HPDA)的元件聚集在一起,這些元件必須一起工作,有效地為決策者、作戰人員和分析人員提供使用的能力。

圖1捕捉了這種端到端AI解決方案及其元件的架構概述。

在圖1的左側,結構化和非結構化資料源提供了實體和/或現象學的不同視圖。這些原始資料産品被送入資料調節步驟,在這個步驟中,它們被融合、聚合、結構化、積累并轉換為資訊。

資料調節步驟生成的資訊輸入到大量有監督和無監督算法中,如神經網絡,這些算法提取模式,預測新事件,填充缺失資料,或在資料集中尋找相似性,進而将輸入資訊轉換為可操作的知識。

然後将這些可操作的知識傳遞給人類,以便在人機協作階段進行決策過程。人機組合階段為使用者提供了有用的和相關的洞察力,将知識轉化為可操作的情報或洞察力。

支撐這個系統的是現代計算系統。摩爾定律的趨勢結束了[2],許多相關的定律和趨勢也結束了,包括德納爾比例(功率密度)、時鐘頻率、核心計數、每時鐘周期的指令和每焦耳(庫米定律)的指令[3]。

借鑒片上系統(SoC)的趨勢,首先出現在汽車應用、機器人和智能手機上,通過為常用的操作核心、方法或功能開發和內建加速器,技術進步和創新仍在不斷進步。這些加速器的設計在性能和功能靈活性之間達到了不同的平衡。這包括深度機器學習處理器和加速器[4]-[8]的創新爆發。

在這一系列的調查論文中,我們将探讨這些技術的相對好處,因為它們對于将AI應用到具有重大限制(如尺寸、重量和功率)的領域(無論是在嵌入式應用程式還是在資料中心)具有特别重要的意義。

本文是對過去三年IEEE-HPEC論文[9]-[11]的更新。

與過去幾年一樣,本文繼續去年的重點關注加速器和處理器,它們面向深度神經網絡(DNN)和卷積神經網絡(CNNs),因為它們的計算量相當大。

由于多種原因,包括國防和國家安全AI/ML邊緣應用嚴重依賴于推理,本調查将重點放在用于推理的加速器和處理器上。

我們将考慮加速器支援的所有數值精度類型,但對其中大多數來說,它們的最佳推理性能是int8或fp16/bf16 (IEEE 16位浮點或谷歌的16位腦浮點)。

有許多綜述[13]-[24]和其他論文,涵蓋了AI加速器的各個方面。

例如,這項多年調查的第一篇論文包括某些AI模型的FPGA的峰值性能;然而,上述的一些調查深入地涵蓋了FPGA,是以它們不再包括在本次綜述中。

這項多年的綜述工作和本文的重點是收集一個全面的人工智能加速器的清單,其計算能力,電力效率,并最終在嵌入式和資料中心應用中使用加速器的計算效率。

随着這一重點,本文主要比較神經網絡加速器是有用的政府和工業傳感器和資料處理應用。在前幾年的論文中包含的一些加速器和處理器在今年的調查中被排除在外。

它們被丢棄了,因為它們被同一家公司的新加速器超越了,它們不再被提供,或者它們不再與主題相關。

處理器概述

人工智能的許多最新進展至少可以部分歸功于計算硬體[6]、[7]、[25]、[26]的進步,使計算量大的機器學習算法成為可能,特别是dnn。

這項調研從公開的材料中收集性能和電力資訊,包括研究論文、技術貿易出版物、公司基準等。

雖然有很多途徑可以擷取公司和初創公司(包括那些處于靜默期的公司)的資訊,但這些資訊有意被排除在本次調研之外;當這些資料公開時,将包括在本次調研中。

這些公共資料的關鍵名額如圖2所示,它繪制了最近的處理器能力(截至2022年7月),映射出峰值性能與功耗的關系。虛線框描述了圖3中放大并繪制的非常密集的區域。

MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣
MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣

觀察與趨勢

Int8繼續是嵌入式、自主和資料中心推理應用的預設數值精度。對于大多數具有合理數量的類的AI/ML應用程式,這種精度是足夠的。但是,有些加速器也使用fp16和/或bf16進行推斷。為了訓練,變成了整數表示。

在這類和嵌入式類别中,釋出片上系統(SoC)解決方案是非常常見的,通常包括低功耗CPU核心、音頻和視訊模拟-數字轉換器(adc)、加密引擎、網絡接口等。soc的這些附加特性不會改變峰值性能名額,但它們對報告的晶片峰值功率有直接影響,是以在比較它們時請記住這一點。

嵌入式部分的變化不大,這可能意味着計算性能和峰值功率足以滿足該領域的應用程式類型。

在自治和資料中心晶片和卡片領域,密度變得非常擁擠,這需要在圖3中進行放大。在過去的幾年裡,包括德州儀器在内的幾家嵌入式計算微電子公司已經釋出了AI加速器,而NVIDIA也釋出并宣布了幾個更強大的汽車和機器人應用系統。在資料中心卡中,為了突破PCIe v4 300W的功率限制,PCIe v5規格備受期待。

最後,高端訓練系統不僅釋出了令人印象深刻的性能資料,而且這些公司還宣布了高度可擴充的互聯技術,可以将數千張卡片連接配接在一起。這對于像Cerebras、GraphCore、Groq、Tesla Dojo和SambaNova這樣的資料流加速器尤其重要,這些加速器是顯式/靜态程式設計的,或者是“放置和路由”到計算硬體上的。它使這些加速器能夠适應非常大的模型,如transformer[129]。

MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣
MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣
MIT釋出《人工智能加速器》2022年度綜述論文,詳解80+類AI晶片性能優劣

參考資料:

https://mp.weixin.qq.com/s/gT-vtbrIVhTZkZgtmOy8wA

繼續閱讀