天天看點

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

摘要:4月7日,全球權威AI基準測試MLPerf釋出最新榜單,在聚焦低功耗、高能效的IoT領域Tiny v0.7榜單中,基于平頭哥玄鐵RISC-V C906處理器的軟硬體聯合優化方案,取得了全部4個名額的第一,并且達到了其他競品同類最優性能的10倍以上。這也意味着,玄鐵RISC-V C906處理器成為了目前最高能效比的AIoT計算核心。

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

4月7日,全球權威AI基準測試MLPerf釋出最新榜單,在聚焦低功耗、高能效的IoT領域Tiny v0.7榜單中,基于平頭哥玄鐵RISC-VC906處理器的軟硬體聯合優化方案,取得了全部4個名額的第一,并且達到了其他競品同類最優性能的10倍以上。這也意味着,玄鐵RISC-V C906處理器成為了目前最高能效比的AIoT計算核心。

在該測試結果公布的次日,芯智訊專訪了阿裡平頭哥副總裁孟建熠,以及平頭哥生态負責人楊靜,希望為大家揭開平頭哥玄鐵RISC-V C906處理器此次在AI基準測試當中以絕對優勢獲得4項全球第一背後的秘密。同時,對于平頭哥在RISC-V領域最新的技術及生态進展,以及對于RISC-V産業未來的發展,孟建熠與楊靜也做了進一步的分享。

RISC-V架構的新機遇:CPU的高能效AI計算

衆所周知,目前在CPU市場,英特爾的X86架構及Arm架構仍然是最為主流的指令集架構。其中,x86架構統治着PC及伺服器市場,而Arm架構則完全占據了移動市場。不過,在IoT(物聯網)市場,由于需求非常碎片化、對功耗、成本也更為敏感,目前不論是X86架構還是Arm架構的處理器,都難以很好的滿足IoT市場各種定制化的需求。

相比之下,近幾年來興起的RISC-V架構,由于具有指令非常精簡、子產品化、可擴充、開源、免費等優點,使得它在IoT市場有着天然的優勢,可以更容易地針對物聯網市場開發出低功耗、高能效、低成本、滿足各種定制化需求的處理器産品。更為關鍵的是,在IoT市場,x86或Arm都沒有絕對的生态上的優勢,RISC-V的發展并不會受到壓制。再加上開源的RISC-V既能讓企業參與全球RISC-V技術協同創新,又能滿足相對獨立的自主可控發展需求,使得RISC-V受到了衆多中國廠商的追捧。

近年來,随着邊緣計算以及人工智能(AI)技術的興起,更多原本放在雲端的AI計算被下放到邊緣端,這樣一方面可以減少對于網絡帶寬的消耗,同時也能降低資料處理的延時,保障使用者資料的安全性,提升使用者的整體的AI體驗。在此背景之下,AIoT(智能物聯網)市場對于邊緣AI的能力也提出了更高的要求。

由于AIoT晶片對于成本和功耗都比較敏感,不同的細分市場也有着不同的個性化的需求,這也使得AIoT晶片大多無法像雲端或移動端的晶片那樣,直接外挂或內建定制的AI加速來負責AI計算,更多是依賴于CPU來進行AI計算。

孟建熠也表示,面對IoT領域的AI需求,其實很多場景都不需要用AI加速器去做,尤其是在面對1Tops以下算力需求的應用當中,通過優化提升CPU的AI能力就已經可以應對,這對于晶片的成本、功耗、可調試性、可開發性都是非常友好的。

相對于x86及Arm等CPU架構來說,由于RISC-V架構CPU本就有着低功耗、低成本的優勢,這也使得進一步挖掘RISC-V CPU的AI能力,成為了不少AIoT晶片廠商重點拓展的新方向。特别是在控制功耗的前提下,RISC-V CPU的AI能效的表現則更為關鍵。

玄鐵C906奪得四項AI測試全球第一,意義何在?

此次平頭哥半導體玄鐵RISC-V C906參與的MLPerf基準測試,是目前全球最權威的AI基準測試之一。Tiny是MLPerf近年新增的聚焦于低功耗、高成本效益的IoT場景的性能測試分類,主要用于展示各晶片廠商在應用日益廣泛的IoT智能市場情景中的軟硬體性能和優化能力。

據了解,此次在本次Tiny v0.7的測試中,參與競争的CPU架構多樣,涵蓋了Arm、RISC-V架構和自研架構等。在不使用加速器的情況下,阿裡基于平頭哥玄鐵RISC-V C906處理器核心——全志D1送出的軟硬體性能優化結果,在滿足精度要求的同時,重新整理了全部4個benchmark(主要是視覺喚醒、圖像分類、語音喚醒及異常監測)性能名額的紀錄,創造了RISC-V架構在MLPerf Tiny基準測試有史以來的最好成績。

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

△MLPerf網站展示的玄鐵C906的四項測試

從Tiny v0.7推理性能資料對比來看,玄鐵C906的四項測試得分分别達到了其他機構最優性能的12.6倍、20.8倍、16.2倍和10.9倍以上。足見玄鐵C906在AIoT領域的性能優勢。

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

△權威AI榜單MLPerf Tiny V0.7性能資料對比

據了解,在AI Benchmark領域,過去大家看重的都是晶片的AI性能,在這塊MLPerf已經做到了國際公認的權威。經過近幾年的發展,特别是在IoT領域,晶片的AI能效表現越來越受到重視,MLPerf也對應的推出了針對IoT領域的AI能效的基準測試Tiny。

孟建熠告訴芯智訊:“由于此前阿裡在AI能效方面一直有較多的布局和積累,當Tiny這個測試推出之後,我們自然就想來反映一下自身的能力,于是就去參與了測試,結果四個名額都拿到了第一,證明了我們的技術路線是正确的。”

需要特别指出的是,該測試成績是在不使用加速器的情況下取得的,也就是說,這個測試的成績完全反映的是平頭哥C906的AI處理能力。

“從平頭哥的角度來說,我們的定位就是提供RISC-V原生的AI支援,而不是去做AI加速器,是以我們全部都是用CPU來跑的,通過軟硬體的協同創新證明我們的整體能力。客戶可以基于此,再去研發更定制化的AI加速器。”孟建熠強調:“我們覺得這件事真正的價值在于對RISC-V産業發展的推動,它不僅證明了RISC-V在AI的高能效處理上是可行的,而且相比其它架構還更具領先優勢,大家可以持續地往這個方向做得更好。”

RISC-V國際基金會CEO Calista Redmond也表示: “物聯網領域的AI技術競争激烈,不同層面的定向優化對于以極低功耗取得新突破至關重要。阿裡此次的工作證明了其在RISC-V産業的上司者地位,也給全球RISC-V社群和生态的發展提供了信心。”

軟硬協同優化是關鍵

那麼,平頭哥玄鐵C906此次成功拿下四項AI測試的全球第一,并且相比友商的最優性能得分均高出了10倍以上,其背後又有着哪些秘密呢?

據介紹,此番玄鐵C906這一成績的取得,主要是得益于阿裡軟硬體協同創新優化的實力,包括了從硬體,到編譯,到算法,再到應用的各個方面。

首先,在硬體層面,玄鐵C906處理器是業界最早量産的向量擴充RISC-V指令集處理器。采用5~8級流水線設計,配備性能優異的單雙精度浮點和128位矢量運算單元,支援INT8 / INT16 / INT32 / INT64 以及 BF16 / FP16 / FP32 / FP64多種格式的矢量運算。同時,C906在資料預取上也做了優化,采用多通道多模式的資料預取技術,可大幅提升資料通路帶寬。

其次,在編譯層面,平頭哥進一步優化了針對玄鐵CPU平台的神經網絡模型部署工具集HHB(Heterogeneous Honey Badger) 及開源神經網絡加速庫CSI-NN2,将AI算子更好地與硬體适配,使得玄鐵CPU實作了AI性能更新。目前,HHB及CSI-NN2均已開源。

第三,在算法層面,借助阿裡雲震旦異構計算加速平台SinianML對各個benchmark的神經網絡進行了壓縮、蒸餾、伸縮、網絡結構搜尋等多方位的優化,在保證達到要求精度目标的情況下,得到遠高于标準模型的計算效率,同時內建阿裡IoT、螞蟻IoT、達摩院語音實驗室等在各自領域的優化經驗和能力,進一步拓展細分領域的優化的效果。

第四,在應用層面,玄鐵RISC-V處理器經過數年的發展,目前已覆寫低功耗、高能效、高性能等各類場景,并支援了OpenXuantie的多作業系統(AliOS、FreeRTOS、RT-Thread、Linux、Android等),廣泛應用于智能家電、車載、工業控制、邊緣計算等領域。這也使得玄鐵RISC-V處理器能夠針對各種不同應用端的需求進行持續優化。

總結來說,玄鐵RISC-V的硬體更多的是處理器這塊,而軟體則更多的是AI的編譯架構以及上層的網絡結構優化的工具。軟硬協同優化,則得益于阿裡雲AI團隊與平頭哥團隊之間的協同。

早在2019年8月的雲栖大會上,阿裡達摩院就釋出了首款針對雲端的自研的AI晶片——全球最強的AI推理晶片含光800。在當時的MLPerf基準聯盟公布首輪AI推理基準測試中,含光800在适用于圖像分類任務的Resnet50 v1.5基準測試的四個場景中均都取得了單晶片第一的成績。

孟建熠告訴芯智訊:“阿裡雲對AI編譯能力、AI架構的優化經驗豐富,AI模型優化的能力是非常強的。平頭哥則在RISC-V處理器層面,通過優化庫來優化我們的硬體結構,進而最終實作了更好的AI能力的提升。”

那麼其他的RISC-V晶片廠商能否通過類似的軟硬體協同優化的方式來實作對于平頭哥玄鐵RISC-V C906在AI能效上的追趕呢?

孟建熠認為,這其中的關鍵在于它能不能打破其已有軟硬體分離的體系,在系統層面進行優化,實作軟硬體的協同。RISC-V作為開放的架構體系,在軟硬協同優化上有着天然的優勢,其他廠商也都可以在各自的應用場景裡面把它優化好。當然,這其中也是有着較高門檻的。

“要對于AI的架構、模型等有着深入了解,才能把上層優化做好,同時上層優化也需要底層硬體配合。這是一個系統能力,不能隻看硬體和軟體,還要看應用。阿裡的優勢在于,阿裡雲和平頭哥多年來在這一領域的深厚積累。”孟建熠說道。

據介紹,目前所有的基于玄鐵9系列的處理器,都可以通過平頭哥提供的軟硬體工具的更新,具備這個軟硬協同的能力,以大幅提升整體的AI能效。

需要指出的是,目前包括平頭哥玄鐵RISC-V E902、E906、C906、C910等4款量産處理器IP,以及針對玄鐵RISC-V處理器AI方面的神經網絡模型部署工具集HHB和神經網絡加速庫CSI-NN2,都是完全開源開放的。是以,在此基礎上,客戶在面向特定領域的時候,還可以自己做更深度的優化。

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

據了解,玄鐵9系列在跟客戶的産品疊代過程中,在指令架構、硬體架構上面基本都是保持穩定的,在底層的庫和上層的應用配套、資源使用、算法與硬體架構比對上面,則會持續更新,幫助客戶進行适配。

孟建熠表示:“玄鐵RISC-V提供的是一個基礎的軟硬體的能力。随着合作夥伴對于場景不斷地深入了解,完全可以在我們的基礎上做得更好。我覺得RISC-V晶片未來應該能夠在低功耗、低成本、高能效、AI這些方面展現出更多優勢。”

楊靜也強調:“玄鐵RISC-V軟硬協同的能力是可以複制的,我們希望在更多的在行業裡面,幫助客戶從應用出發,通過軟硬體協同創新的方式不斷優化,把能效進一步提升起來。”

RISC-V在移動及伺服器市場的未來

正如我們在前文當中所指出的,由于RISC-V所具有的低功耗、低成本的優勢,使得其非常适合IoT市場。目前RISC-V生态的發展也主要是圍繞着各種IoT的應用。但是,這并不代表RISC-V就沒有機會進入Arm架構統治的移動市場,以及x86架構統治的伺服器市場。

2021年10月13日,平頭哥就宣布其基于RISC-V架構的玄鐵C910成功相容安卓系統,可運作Chrome浏覽器等應用。這也是當時業界首次實作RISC-V架構對安卓的支援,意味着RISC-V架構有望打破場景壁壘,成為移動端晶片設計的新選擇。

據芯智訊了解,目前平頭哥正持續推動基于RISC-V CPU架構的Android生态發展,未來将有更多新的進展和釋出值得期待。

雖然,RISC-V的高能效、低成本等優勢,可能會給移動裝置帶來更好的體驗以及成本的降低。但是,RISC-V的劣勢也很明顯,因為它是一個新的架構,不論是在移動端、還是在PC/伺服器端都缺乏生态的支援。

另外,RISC-V架構的完備性和處理的能力也需要進一步完善,以适應移動市場或PC/伺服器市場的要求。但是,随着RISC-V CPU核心不斷向高性能方向發展,以及各種複雜功能的加入,可能也會将使得RISC-V CPU核心變得越來越臃腫,功耗也會大幅增加,開發的門檻也會大幅提高。目前高性能的RISC-V CPU IP也主要是由一些RISC-V開發商(比如SiFive、平頭哥)通過IP授權形式提供的。在此情況下,RISC-V原本的指令精簡、低功耗、低成本的優勢或将不再明顯,恐怕很難與在移動市場占據絕對生态優勢的Arm架構進行競争,也難以在伺服器市場與x86架構競争。

對此,孟建熠也坦言,RISC-V架構向高性能領域發展,随着架構體系越來越大,确實可能會丢失掉諸如低功耗、低成本的一些優勢。但是,RISC-V依然有着與Arm及x86競争的巨大潛力。

“RISC-V是一個面向未來的新架構,其内部采用的是子產品化的設計,雖然在IoT領域已經比較完備,但如果要拓展到移動端和資料中心市場,就需要增加很多相應的子產品,是以它必然有一個從小到大的發展過程。我們今天在發展和補全整個RISC-V架構的時候,會審視過去Arm架構及x86架構中存在的問題,會批判地繼承過去的一些經驗,在新的RISC-V架構裡将它完善。盡管整個RISC-V的架構會變大,但它是一個新的、更完善的架構,至少是目前業界我們可以重新定義的一個全新的、極具潛力的新架構。”孟建熠說道。

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

據了解,目前RISC-V基金會已經有超過2000家會員企業,其内部有着多達60個左右的技術委員會,都在積極的從各個次元來完善RISC-V技術。這其中不僅有硬體的開發人員,還有軟體開發者,以及各行各業裡原來就在用Arm架構的晶片廠商。就連x86架構的處理器大廠英特爾也加入了RISC-V基金會。同時,英特爾和AMD也都投資了知名的RISC-V IP廠商SiFive。

拿下AI測試四項全球第一!平頭哥玄鐵CPU的布局與RISC-V的未來

孟建熠表示:“RISC-V的技術發展有着全球化的協同,這樣開放的架構,讓大家都能夠參與到其中,将其不斷完善,并避免過去Arm及x86架構中所存在的問題。這也使得RISC-V架構随着功能不斷完備,未來可能會變的很大,但并不臃腫,我們會讓它依然保持精簡。我想這是我們這些做RISC-V架構的技術人的一個共同目标。”

“目前伺服器市場仍是以x86架構為主,但發展非常快,并且還有Arm的加入,廠商們不斷地對基礎設施提出新的要求。RISC-V作為一個新的架構,能夠快速地去跟進資料中心的需求,比如新的資料量和新的一些模型的要求上的變化。”楊靜進一步解釋到:“相比x86和Arm架構,RISC-V擁有更高的靈活性和開放性,可以伴随着資料中心有新的突破和成長,不斷地去更好地适應變化。”

RISC-V IP未來路在何方?

近兩年來,随着RISC-V架構的火爆,以及資本的追捧,市場上湧現出了衆多的RISC-V IP供應商,比如平頭哥、SiFive、芯來、晶芯、賽昉等。

但是從市場角度來看,半導體IP市場規模本并不大,特别是在CPU IP領域。即便是壟斷了整個移動市場CPU IP的Arm,其2020年的營收規模也隻有19.80億美元左右。更何況市場上本就有很多的開源RISC-V IP,還有一些終端廠商選擇自研RISC-V IP。這些都将使得未來的RISC-V IP市場或将面臨極為激烈的競争。

對此,孟建熠表示,RISC-V作為一個開源的架構,它的商業模式也必然不同于x86和Arm。目前包括平頭哥在内的很多主流的RISC-V IP廠商都在探索一條新的商業模式。

“平頭哥其實已經把自己的幾個IP都開源了,在逐漸地走向更加開放的這條路上。我們也在探索如何能夠讓我們的客戶受益,幫助他們在RISC-V上面得到原有技術所不具備的能力,這是我們始終在技術和商業創新的路上一直在努力的嘗試。”孟建熠說道。

在芯智訊看來,平頭哥目前的所走的路,并不是一家純粹的RISC-V IP公司所走的路。因為IP的研發需要很多的投入,而研發出來的IP卻又拿來開源,這顯然是一樁賠本的買賣的。那麼為何平頭哥還會這樣去做呢?顯然,阿裡更看重RISC-V生态發展。

“今天在核心IP上每投入1塊錢,整個生态系統能夠跟着增加20塊錢的産出。是以我們不要局限于去看自己的IP能賺多少錢,我們要參與到更大的生态系統裡面去,去幫助合作夥伴發掘更多的商業化和生态化的可能性。隻有大家在這個生态裡都能取得發展,都能夠得到自己想要得到的東西,才能更好地幫助RISC-V 整體生态成長,玄鐵處理器也才能更快地成熟起來。”楊靜解釋說。

作者:芯智訊-浪客劍

繼續閱讀