天天看點

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

在AMD董事會主席及首席執行官蘇姿豐(Lisa Su)“無處不在的AI”願景下,該公司在AI領域的布局越來越全面且深入。多款适配AI應用的産品,如EPYC、Ryzen等系列處理器,已經在雲上、企業應用中得到廣泛應用。不過,面向下一場邊緣AI的革命,AMD需要推出更加高效且緊湊的解決方案。 事實上,邊緣AI在醫療、交通、智能零售、智能工廠和智能城市等衆多行業的變革已經開始了。随着新應用對計算能力的需求日益增加,行業同時面臨着功耗和尺寸限制等一系列挑戰。以往,AMD主要憑借Versal、Zynq等系列産品滿足行業需求。然而,為了應對更高層次的計算要求,AMD正在不斷更新,以提供更為強大的支援。

嵌入式AI瓶頸——亟需單晶片加速處理

一直以來,嵌入式系統面臨嚴格限制,比如極端的溫度條件、受限的電力供應/空間尺寸,并且必須實作實時響應,確定安全性和可靠性。而随着AI的普及,在傳統挑戰之外,嵌入式系統還要滿足更高的工作負載需求。 在AI驅動的嵌入式系統中,資料處理包括預處理、AI推理和後處理三個關鍵環節,每個環節都需要加速以實作系統的實時性能。預處理涉及多種傳感器的資料融合和交集,是實作實時處理的關鍵步驟;AI推理通常由矢量處理器執行;後處理則依賴高性能的嵌入式CPU。由于沒有單一類型的處理器能夠優化這三個階段,是以需要一系列不同的處理器來針對各個環節進行優化。 建構這樣的系統通常采用多晶片解決方案。一般在預處理階段結合FPGA和SoC進行優化,推理階段使用非自适應SoC,後處理階段使用高性能嵌入式CPU。當然,AMD第一代Versal AI Edge系列産品提供了一種替代方案,能夠使用可程式設計邏輯進行預處理,矢量處理或AI引擎進行推理,但後處理仍需要外部處理器的支援。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

以上無論哪種方法,都要用到多晶片解決方案,而這會帶來一系列問題:比如更高的功率需求、供電複雜性、更大的占闆面積和系統尺寸、更高的外部記憶體需求,以及晶片間互聯帶來的時延增加。此外,更多的元件增加了安全漏洞和潛在故障點,提高了報廢風險,并增加了闆卡設計的時間和工作量,進而降低了生産效率。

AMD第二代Versal自适應SoC實作“單晶片智能”

針對上述行業痛點,AMD宣布針對嵌入式系統推出第二代Versal自适應SoC,包括:第二代Versal AI Edge系列和第二代Versal Prime系列,前者專為AI驅動型嵌入式系統設計,後者則适用于經典的嵌入式系統。 “單晶片智能”對嵌入式AI究竟意味着什麼?根據AMD自适應與嵌入式計算事業部( AECG ) Versal産品營銷總監Manuel Uhm的解讀,核心在于單個器件提供端到端加速的能力,能夠覆寫資料預處理、推理和後處理三個階段。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

AMD自适應與嵌入式計算事業部( AECG )Versal産品營銷總監 Manuel Uhm

第二代Versal自适應SoC通過可程式設計邏輯進行預處理,包括傳感器融合、資料調節,同時加入了新的硬體圖像和視訊處理功能;在推理階段,新一代AI引擎AIE-ML v2實作了每瓦TOPS 3倍提升;後處理階段,通過內建8X Arm Cortex-A78AE應用處理器和10X Arm Cortex-R52實時處理器,實作了10倍的标量計算能力。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

此外,考慮到邊緣計算對資訊安全和功能安全的嚴格要求,第二代Versal系列産品支援ASIL D、SIL 3等标準,確定安全性能從設計初期就被納入考慮。 Manuel Uhm表示,“不同于第一代産品更多是進行CPU加速,第二代Versal AI Edge系列最主要的目的是能夠形成系統的中央計算。基于過去幾十年在嵌入式領域的深耕,AMD面向嵌入式AI提供了強大支援。” 一組直覺的對比可以看出第二代Versal在ADAS、智慧城市、視訊流應用中更進階别的系統性能提升:

  • 在L2+/L3 ADAS應用中,由于加入硬圖像處理功能,第二代AI Edge系列在具備相近功率資源的前提下,其圖像處理能力提升了4倍。
  • 在智慧城市場景中,第二代AI Edge系列在為邊緣AI裝置占闆面積帶來30%尺寸縮小的同時,支援2倍視訊流,意味着每路視訊流占闆面積縮小65%。
  • 在視訊流中,與Zyng MPSoC的效率相比,第二代Versal Prime系列能夠為多端口編碼與流媒體提供2倍的視訊處理能力,使得每路視訊流占闆面積縮小35%。
AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

如何在三大處理階段實作“單晶片智能”?

Manuel Uhm深入解釋了第二代Versal自适應SoC在預處理、推理、後處理三個階段的具體表現和實作方式。 預處理階段最主要的目标就是降低延遲時間、增加确定性。這個階段如果使用非自适應SoC,I/O接口或硬ISP數量非常有限,缺少靈活性。如果想導入不同的傳感器或是資料類型時,必須通過外部存儲或緩存,這會導緻處理效率低、時延增加。 “預處理階段,自适應性就相當于靈活性,意味着它能夠和任何傳感器、任何接口連接配接。處理器受限于指令集内容,而自适應性可以對硬體實作定制,适配不同的性能,同時可以實作實時。通過可程式設計的方式,可以做到真正的靈活性”, Manuel Uhm指出。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

AI推理方面,與第一代主要通過可程式設計邏輯來實作AI引擎控制不同,第二代産品的控制處理器包含在AI引擎陣列中,并且進行了硬化處理。也就是說,AI引擎控制的工作無需交由可程式設計邏輯處理,多出來的可程式設計邏輯資源可被用于傳感器和其他資料的處理工作。 由于AI推理面臨高吞吐量和精準度的雙重要求,第二代Versal AI Edge系列通過支援多種資料類型,滿足了不同級别的精确度和吞吐量需求。例如引入共享指數資料類型,使得在不犧牲精确度的前提下,吞吐量得到了顯著提升,在MX6資料類型Dense配置下,最高端性能可達369 TFLOPS,與INT8類型最高可實作184 TOPS的性能相比,實作了約60%的每瓦TOPS提升。此外,AIE-ML v2 AI引擎還能夠處理資料信号,如FIR和FFT等。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

為了充分發揮AI引擎的強大性能,配套的軟體包也必須強大且易于使用,以便開發者能夠利用熟悉的工具進行部署和優化。Vitis AI就是這樣一個軟體包,它允許開發者使用開源工具如PyTorch和TensorFlow等進行模型優化和推理,進而更好地發揮Versal AI Edge系列器件的潛力。 後處理階段,如前所述,新産品可以提供高達10倍的标量算力。這主要離不開針對複雜決策與類似工作負載的應用處理單元(APU),具有8倍的Arm Cortex-A78AE核心,每核心最高頻率高達2.2GHz,并且具備高達200.3K的DMIPS算力;針對控制功能的實時處理單元(RPU),具有高達10倍的Arm Cortex-R52核心,每核心最高頻率高達1.05GHz,以及高達28.5K的DMIPS算力;此外,ASIL D及SIL3級别的設計,也大幅提升了新産品應對系統故障的能力。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

“對比以往多晶片AI驅動型嵌入式系統,第二代Versal AI Edge系列在單個器件中實作了端到端嵌入式系統加速,并且,采用外部安全微控制器或外部記憶體的需求也降到最低,不需要在多個處理器之間去分享工作流,提高了效率,免去了額外開銷”,Manuel Uhm總結。 斯巴魯EyeSight視覺系統是使用第二代Versal AI Edge系列産品的典型案例。雙方通過合作,使得下一代EyeSight視覺系統的碰撞前制動、車道偏離預警、自适應巡航控制和車道保持輔助性能得到了進一步的提升。而且,利用可程式設計邏輯,斯巴魯還可以實時修改立體攝像頭的處理算法,進一步強化了車輛安全性能。

AMD AI目标實作關鍵一環,“單晶片智能”滿足嵌入式需求

據了解,第二代Versal AI Edge系列和第二代的Versal Prime系列早期試用計劃已經展開,早期的通路文檔已經釋出,目前正與包括斯巴魯在内的主要客戶進行接洽。晶片樣片将于2025年上半年釋出,評估套件和系統子產品(SOM)将于2025年年中推出,量産晶片将于2025年末面市。

推動“無處不在的AI”,實作更廣泛的智能化

AI正在經曆快速的發展和變革,新興模型如Transformer在短短幾年内已成為行業焦點,而未來可能出現的全新模型更是無法預測。要在這樣快速變化的環境中保持競争力,平台的适應性和靈活性變得至關重要。 這也是為什麼,AMD緻力于開發一個具有高度伸縮性的平台,希望它能夠靈活适配未來市場的處理需求。 目前,AMD的AI布局主要聚焦于推理和訓練。未來,幾大産品線将如何提供相應支援?根據Manuel Uhm的表述,訓練端将主要依賴于CPU、GPU的強大能力,并輔以Alveo等自适應加速産品;在邊緣推理方面,将主要依靠AI引擎和可程式設計邏輯來執行推理任務,發揮自适應平台的關鍵能力。 在分布式機器學習的趨勢下,訓練和學習任務也被推送到邊緣裝置執行,而不是集中在雲端。這種方法減少了資料回傳雲端所導緻的時延,使得邊緣裝置能夠進行實時學習和适應,AMD的産品也可适用這種場景。 此外,隐私保護成為AI應用中的一個重要考量。随着對資料隐私的關注日益增加,越來越多的使用者和企業希望在本地裝置上進行資料處理,而不是将資料上傳到雲端。AMD也關注在邊緣裝置上進行訓練和推理的解決方案,以滿足對隐私保護的需求。 Manuel Uhm表示,通過上述戰略布局,AMD正積極應對AI領域的主要挑戰,旨在推動實作“無處不在的AI”,實作更廣泛的智能化。

繼續閱讀