天天看點

Arm全新NPU性能提升4倍,支援Transformer,邊緣生成式AI時代指日可待

作者:雷峰網

生成式AI在經曆了火熱的百模大戰之後,開始進入落地階段。

以工業機器視覺、可穿戴裝置和消費者機器人為代表的邊緣應用,無疑是生成式AI落地的重要場景。

本周,Arm宣布推出了性能相比前代提升4倍的Arm Ethos-U85神經網絡處理器 (NPU),這是一款硬體支援Transformer 架構和卷積神經網絡 (CNN)的AI加速器,能夠以高能效實作邊緣側AI推理。

Arm物聯網事業部業務拓展副總裁馬健表示,“生态系統中的開發者在樹莓派裝置上評估運作包括 LLaMA 等在内的大模型。邊緣部署大模型和生成式AI用例指日可待,Arm已經為此做好準備。”

全新NPU原生支援Transformer

Ethos-U NPU系列是Arm推出的AI微加速器,主要是滿足邊緣邊緣AI和嵌入式AI的市場需求,此前已經釋出了Ethos-U55、Ethos-U65,并且已經有多個量産産品。

本周最新釋出的Ethos-U85,與上一代産品相比,Ethos-U85 性能提升4倍,同時能效提高了20%,可以滿足工廠自動化和商用或智能家居攝像頭等物聯網應用不斷攀升的性能需求。

Arm全新NPU性能提升4倍,支援Transformer,邊緣生成式AI時代指日可待

Ethos-U85的主要特性包括:

  • 單周期支援從 128 到 2048 個 MAC單元的配置——在 1GHz 時,算力可支援從 256 GOPS 到 4 TOPS。
  • 支援 int8 權重和 int8 或 int16 激活。
  • 支援 Transformer 架構網絡,以及 CNN 和 RNN。
  • 硬體原生支援 2/4 稀疏性,使吞吐量翻倍。
  • 内部 SRAM 為 29 至 267 KB,多達六個 128 位 AXI5 接口。
  • 支援權重壓縮,采用标準和快速權重編碼器。
  • 支援擴充壓縮。

對于Arm來說,設計出一款高性能的産品難度不大,關鍵在于産品的定義,Ethos-U85相比此前同系列産品一個明顯的不同是支援Transformer模型。

具體實作上,Ethos-U85除了支援Ethos-U55和Ethos-U65 目前支援的算子,通過支援TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR和 ARGMAX等運算,Ethos-U85實作了對Transformer模型和DeeplabV3語義分割網絡的原生硬體支援。

更高的性能往往意味着更高功耗,為了兼顧性能和能效,更好滿足邊緣和端側AI應用的需求,Ethos-U85通過支援元素級算子鍊化提升效率。

通過鍊化将元素級運算與先前的運算相結合,SRAM不必先寫入再讀取中間張量。由此減少NPU和記憶體之間資料傳輸量,提高NPU的效率。

相比Ethos-U65,鍊化是Ethos-U85在效率提升上的新功能之一,此外還有快速的權重編碼器、優化的 MAC 陣列能效,以及提升的元素效率。

參考設計加速邊緣生成式AI落地

目前,Arm Ethos NPU系列産品已有逾20家授權許可合作夥伴,Alif Semiconductor和英飛淩是全新Arm Ethos-U85 NPU的早期采用者。

對于大量邊緣裝置的開發者來說,基于Arm Ethos-U85 NPU開發和設計産品依舊有比較高的開發門檻。

降低AI開發門檻最一個直接的方式就是提供參考設計。

與Ethos-U85同時推出的是Arm Corstone-320物聯網參考設計平台。這一全新的參考設計平台內建了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的Ethos-U85 NPU。

Arm全新NPU性能提升4倍,支援Transformer,邊緣生成式AI時代指日可待

除了IP,Corstone-320物聯網參考設計平台還有軟體套件,包括固件、所有 IP 的驅動程式、中間件、實時作業系統 (RTOS) 和雲內建、ML 模型和參考應用程式。

有了配套的軟體套件,軟體開發者能夠輕松選擇其特定細分市場所需的元件,并使用所選開發工具為該裝置建構物聯網堆棧。開源應用程式示範了關鍵詞識别、語音識别和目辨別别用例。

還附帶了仿真Corstone-320完整系統的Arm虛拟硬體(Arm Virtual Hardware),以及單獨的 CPU和NPU的固定虛拟平台 (FVP) 模型,能簡化開發并加速産品設計,支援軟硬體并行協同開發。

Arm全新NPU性能提升4倍,支援Transformer,邊緣生成式AI時代指日可待

“為了支援中國廣大的物聯網嵌入式開發者,我們将Arm虛拟硬體落地在了百度雲上,正在實作與百度BML和EasyDL工具鍊的組合,使基于Arm技術的AI開發可以在百度飛槳 (PaddlePaddle)上變得更加容易,且實作軟硬體協同開發。”馬健說,“在基于 Arm 最新 IP 量産晶片就緒之前,就可以預先做軟體應用的開發以及 AI/ML 算法的開發和優化。”

Arm在軟體和生态方面還有一個顯著的優勢,那就是Arm 在資料中心、雲、邊、端都有統一的工具鍊支援,開發者可以使用已經熟知的工具鍊,具有投資複用、上手容易等優勢。

Arm全新NPU性能提升4倍,支援Transformer,邊緣生成式AI時代指日可待

Corstone-320能夠加速語音、音頻和視覺系統,比如智能家居、智能零售、智能工業制造領域的AI落地。

即便Corstone-320中的Cortex-M85不滿足邊緣AI的需求,Arm也支援從基于 Cortex-A 的系統直接驅動 Ethos-U85 的功能,大幅增加Ethos-U85的适用範圍。

如何應對碎片化和RISC-V挑戰?

性能提升4倍的全新NPU和全新的參考設計平台,是Arm能夠對外提供的能力。

但要在邊緣市場落地生成式AI,依舊面臨着模型成熟度、邊緣AI平台的開發,以及生态鍊對大模型量化和部署支援的問題。

Arm全新NPU性能提升4倍,支援Transformer,邊緣生成式AI時代指日可待

還有不可避免的邊緣市場碎片化的問題,以及RISC-V的競争。

馬健說,“Arm始終聚焦軟體生态标準以及硬體标準的投入,幫助整個生态減少碎片化。”

比如,Arm建立了SystemReady标準,以實作在不同的Arm計算平台和晶片平台上,有标準的軟體包。

另外,Arm還創立了PSA Certified認證标準,讓通過PSA Certified 認證的産品和系統有最基本的安全和合規的保證。

AI方面,Arm提供标準的生态工具以及軟體工具鍊。

“期待未來通過大模型和多模态,物聯網碎片化問題可以得到更好的改進。AI 會從單一功能到多功能,甚至是向通用AI的方向演進。”馬健也表示。

至于如何應對RISC-V在邊緣AI市場的競争?

馬健對雷峰網說,“我們的戰略一直非常簡單,專注做好最優秀的産品,使産品更加易用,以及持續打造強大的生态系統。曆史經驗告訴我們,隻要我們專注做好這三件事情,整個行業就能夠以互相合作的方式來共同前進,我們會繼續堅持這一政策,在AI甚至未來的其他市場上取得更大的成功。”