天天看點

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

本文翻譯自Wikibon矩陣計算與AI革命系列研究文章。

如今異構計算(Heterogeneous Compute,HC)已經部署在消費類移動裝置中,與傳統架構相比可以将矩陣工作負載的性能提高50倍。同時,這也将成本效益和功耗節省提高了150倍以上。企業HC可能會使用與消費HC相同的技術。是以,異構計算的改進将大幅提升實時矩陣工作負載的價值,尤其是那些AI推理工作負載的子集。

更具戰略意義的前提是,雖然異構計算可以将處理資料的成本降低五十倍,但存儲和移動資料的成本将高出50倍。如果矩陣工作負載使用傳統的資料中心流程,非處理器元件的成本将占主導地位。但是,通過使用資料主導的營運架構(Data-led Operational Architecture,DLOA),可以使存儲和網絡成本與計算成本保持一緻。這兩個基本體系結構改變的結果是,允許實時矩陣工作負載在與傳統企業計算相同的成本範圍内,處理兩個數量級以上的資料。用異構計算運作矩陣工作負載,這是資料導向型企業的重要技術。

Wikibon的研究員表示,上述前提與假設的觀點非常激進。如果其他研究人員發現錯誤,遺漏或不合适的數字,Wikibon也願意更新研究結果。注意:AI訓練工作負載不是 矩陣工作負載,因為它不是實時的。訓練工作負載通常是分批的,這将顯著提高GPU吞吐量。目前,訓練在AI計算能力中占比很高,但在這十年中,推理将更加重要。 

執行摘要

對于矩陣工作負載,異構計算的性能優于傳統的x86

蘋果和谷歌首先在消費類應用中采用了神經網絡技術。2017年,Apple的iPhone X内置了早期的異構計算架構,該架構具有內建的GPU、處理器和神經網絡單元(NPU)。這款智能手機讓移動使用者可以使用軟體而不是硬體來拍攝更好的照片,并通過面部識别技術改善隐私性。Google在其Pixel智能手機中随附了一個獨立的NPU,以增強攝影和音頻功能,還提供了依靠大型水冷TPU(Tensor Processing Unit)的雲服務來支撐在手機上發展機器學習(ML)。

Wikibon将“異構計算體系結構”定義為CPU、加速器、NPU、ASIC、GPU和FPGA的組合。它們以非常低的延遲和高帶寬彼此直接互連,這比DRAM的運作速度快得多。在本研究中,代表性的異構計算系統是基于Arm的iPhone 11。傳統體系結構的代表是基于最新的Intel i7-1065G7技術的x86 PC系統。下面的圖1總結了本研究的性能和成本效益部分的結論。

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖1:對比傳統和矩陣工作負載下異構計算與傳統x86的性能和成本效益來源:©Wikibon,2020年。

圖1中的y軸是基于Arm的異構計算架構(iPhone 11 Pro Max)和傳統x86架構(Intel i7-1065G7 PC)之間的比值。對于傳統的工作負載,這兩種裝置的性能大緻相同。

第一組相鄰的清單示性能比率,以Y軸顯示。藍色的列顯示了傳統的工作負載性能,這表明異構計算的性能比x86略慢(0.95:1)。紅色的列則顯示了在異構計算體系結構上運作的矩陣工作負載性能是x86的50倍。

第二組相鄰的列展示了成本效益比率,以Y軸顯示。藍柱表明傳統工作負載下HC成本效益是x86的3.6倍。紅柱展示了矩陣工作負載下HC的成本效益高出x86超過150倍。 

資料主導的營運架構(DLOA)

支援矩陣工作負載的異構計算系統将需要截然不同的部署政策。傳統的IT組織思維方式是降低計算成本。對于矩陣工作負載,其思路是需要關注資料存儲和移動資料的成本最小化。而處理方式也将轉向在資料建立處攔截資料,并實時從資料中提取最大價值。資料的建立可以在邊緣、移動邊緣、集中式資料中心,也可以是在網際網路POP等集中式站點。提取的資料中的一小部分子集可以相鄰地存儲,進而允許來自其它系統的額外處理請求。這些子集還将允許資料通過現代的混合多雲網絡移動到其它系統。

圖2說明了傳統工作負載操作流程與矩陣工作負載操作流程之間的差別。圖2的上半部分顯示了正常資料源,該資料源将資料發送到實時作業系統,然後将所有原始資料和提取的資料,存儲在資料倉庫和資料湖中。

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖2:傳統的IT工作流程vs以資料為主導的營運架構工作流程來源:Wikibon©2020

圖2的下半部分顯示了解決問題的另一種方式,更接近人工的操作方式。資料(通常來自越來越多的傳感器或資料流)是實時處理的。一般情況下,應用是一個分布式推理AI子產品,異構計算架構提供了處理資料所需的巨大計算能力。每個步驟的輸出在緩沖區中儲存很短的一段時間(10分鐘左右),以便将上下文保留在未來的結果中。例如,如果幾分鐘後發生異常,則可以将緩沖區中的所有剩餘資料儲存并集中發送,以便進行遵從性和技術審查。緩沖區中的資料會不斷被覆寫。

還可以處理分析和其他資料的需求。例如,來自特定的罕見情況的資料可以被儲存下來,以幫助開發在微調或擴充AI推理代碼。異構計算可以更新以處理短期實時分析的請求。保留的資料小于原始資料的1%,通常遠小于1%。該資料包含被提煉過的,有價值的資訊。在可能的情況下,工作流設計人員将把計算資源放在靠近主資料的位置,并避免資料移動。必要時,多雲網絡将保護最終資料并将其傳輸到需要的地方。在以資料為主導的企業中,這些其它地點将為轉移過程付費。

降低異構計算成本的結果(圖1)和DLOA部署架構的變化(圖2)導緻運作矩陣工作負載的成本降低了兩個數量級。 

異構計算供應商

異構計算領域的領先者目前主要是以消費者為主導的廠商,他們利用Arm公司的設計授權。特斯拉還使用Arm元件和自己的NPU設計來建構其HW3 HC系統。唯一的HC供應商是早期先驅者MobilEye,該公司于2017年被英特爾收購。

目前,Arm主導的系統性能已經等同或超過傳統x86系統。Wikibon預計,未來十年,Arm主導的硬體、架構和軟體将在異構計算領域占據主導地位,無論是分布式&邊緣計算,還是大型集中式雲計算。假設x86供應商繼續其目前的設計和制造政策,Wikibon研究結論是,到2020年代末,企業伺服器支出的72%将用于基于Arm的伺服器。 

以資料為主導的政策 

人類是在源頭過濾大量資料的專家。他們專注于從一系列的視覺、聽覺、嗅覺、味覺和觸覺傳感器中過濾出必不可少的東西,這些資料轟炸着我們。人類的大腦通過大腦的神經結構在幾毫秒内得出結論。人們也在不斷學習改進這種過濾過程。它們将重要事件保留為記憶,并丢棄其餘資料。

企業正在努力成為以資料為主導的組織,但問題的一部分是資料太多。移動資料費時費錢,并且會删除相關的上下文。理想的做法是在建立資料的時間點和地點處進行過濾,用它來自動化本地流程,并為遠端流程提供資訊。問題在于,目前的計算機體系結構不能處理這些帶有大量資料的實時工作負載。我們需要更像人腦一樣運作的設計,并在源頭過濾資料。

在前面的研究中,Wikibon将這些工作負載稱為矩陣工作負載。本次研究的重點是異構計算(HC)架構,該架構可以在相同的成本範圍内實時處理比傳統設計多2個數量級的資料。矩陣工作負載的示例包括智能系統、實時分析、人工智能推理、随機樹林、機器人技術、自動駕駛汽車等。Wikibon預測,到2020年代末,矩陣計算收入的增長将占到全球企業計算的42%,此預測假定x86供應商政策沒有重大變化。

異構計算架構的戰略重要性是作為資料主導型企業的重要工具。當然還需要許多其它工具。例如,資料流的管理和合規性需要DataOps工具。而且,為了更快更安全地傳輸較小數量的資料,混合多雲網絡是必要的。總而言之,資料主導型企業的核心是能夠在資料産生的地方實時從資料中提取價值,并實作自動化。 

定義異構計算架構

為什麼需要新架構

傳統的架構注重以CPU為主要部件,并把重點放在提供更多的核心、更多的CPU、更快的CPU以及DRAM上。有時會添加GPU,PCIe網絡提供帶寬,中間的存儲是DRAM。這種架構無法以所需的延遲或合理的成本處理實時矩陣工作負載。

異構計算架構(HC)允許采用更靈活的方法,提供廣泛的處理器類型,并在這些處理器之間提供靈活的、極低延遲的連接配接。帶寬和中間存儲由SRAM提供,SRAM比PCIe的延遲更低,帶寬更高。并行性和低延遲高帶寬使得大多數矩陣工作負載的處理速度至少快一個數量級,而成本卻低兩個數量級。 

異構計算(HC)架構的定義

Wikibon将HC定義為CPU、加速器、NPU、GPU和其它元件(如ASIC),以及與靈活的、極低延遲的高帶寬連接配接和不同元素之間的中間存儲的組合。由作業系統管理資源的使用,以滿足矩陣工作負載的處理、帶寬和延遲要求。

異構計算體系結構的主要元件如下: 

CPU

在矩陣工作負載中,标量處理非常重要。并非矩陣工作負載中的所有算法都能利用GPU或NPU。一般來說,這些工作負載中的算法有大量的标量整數和浮點運算,而這些算法不能從機器學習中獲益。

 加速器

将某些高開銷功能解除安裝分擔給加速器可以改善CPU的标量處理能力。一個例子是加速加密的加速器。對于矩陣工作負載,算術加速器至關重要。例如,Apple A13 AMX加速器将浮點算法提高了六倍。複雜的處理器組合,可以适應特定的矩陣工作負載。

x86在體系結構中添加了大量的專用指令,這些指令提供了大量的加速器。x86方法的差別在于,每個處理器都具有這些加速器,并且它提供了處理器優先的通用計算。HC的方法在将設計與工作負載進行比對方面提供了更大的靈活性。 

GPU(圖形處理器單元)

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖3:GPU和CPU架構的比較來源:Wikibon 2020(根據Jill Reese和Sarah Zaranek改編  )。

圖3顯示了GPU與CPU的不同之處。GPU具有數百個簡單的算術單元。如果某個應用是計算密集型的,并将計算任務分解成數百個獨立的工作元素,GPU就可以解除安裝分擔這些計算或加速該應用。

GPU的主要任務是将圖像、動畫、視訊和視訊遊戲渲染到PC、智能手機和遊戲機的螢幕上。2D和3D圖形利用的是多邊形。多邊形變換計算需要快速的浮點運算。圖3所示的GPU AU陣列提供了這種能力。

一些非圖形應用也可以使用GPU的原始能力。然而,GPU架構對于大多數矩陣工作負載來說并不理想。大多數矩陣不使用多邊形,是以不使用很多浮點運算。整數運算比浮點運算快得多,耗電量也少得多。

當GPU加載完計算工作負載後再進行處理時,對非圖形應用的效果最好,批量處理可以實作這一點。當批處理量較大時,如256個,GPU的工作效果最好。

然而,矩陣工作負載的實時元素将重點從批處理吞吐量轉變為低延遲任務完成。合适的批次大小僅為1。新的瓶頸是移動、加載和解除安裝GPU中資料的進出。是以,矩陣工作負載的GPU瓶頸是系統記憶體和GPU記憶體之間的記憶體到記憶體通信,如圖3所示。如果IT營運部門試圖增加額外的GPU,就會導緻擴充性差,降低GPU的使用率。

多年來,智能手機和iPad使用神經處理單元(NPU)來運作消費者級的矩陣工作負載。下一部分将介紹NPU,以及為什麼在大多數矩陣工作負載中NPU比GPU更高效。 

神經處理器單元(NPU)

神經網絡(通常稱為人工神經網絡)是反映人腦結構的計算系統。神經網絡單元(NPU)是計算架構的最新成員,旨在更加高效地運作矩陣工作負載。 

Google員工為神經網絡理論和硬體開發做出了重要貢獻。例如Google的Ng和Dean建立了一個突破性的神經網絡,該網絡可以“自我學習”,以識别未标記圖像中的進階概念。

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖4:簡單的神經網絡

來源:©Wikibon 2020

圖4顯示了一個簡單的神經網絡。紅色的輸入節點從軟體或連接配接的裝置接收初始輸入。兩個藍色隐藏層和綠色輸出層中的每個節點或神經元都從左側的神經元接收資料。

在圖4的簡單示例中,這些輸入會與權重相乘,權重由兩個神經元之間的連接配接深度來描繪。每個神經元将從左邊的神經元收到的所有資料加起來。如果總和超過門檻值,神經元就會觸發與其連接配接的神經元(圖4中右側的神經元)。幾乎所有的計算都是乘法/加法運算,并且從左到右進行。

在第一個周期中,輸入神經元将資料發送到下一層後,一個連續過程處理為下一個周期加載資料和權重。在每個周期中,系統都會加載一小塊資料和權重作為輸入,短的資料塊會從輸出端解除安裝。以企業為例,Tesla FSD HW3系統具有96 x 96的輸入陣列,并以2GHz的頻率運作。兩個NPU的總操作吞吐量為96×96×2個操作×2GHz(2個10 9)×2個NPU =〜73 TOPS。TOPS為每秒操作萬億次。

神經網絡節點和連接配接數通常比圖4中的要大得多。整數乘/加操作通常占代碼的99.5%以上。此外,整數運算比浮點運算更快、功耗更低。使用32位整數乘法和8位整數僅需要0.2皮焦耳的功率。與浮點GPU相比,功耗和空間需求減少了三倍以上。整數數學的精度,足以滿足大多數神經網絡應用的需求。 

為什麼NPU需要SRAM

企業級Tesla HW3系統中兩個NPU的資料輸入和輸出總數約為0.5KB×2GHz(10 9)x 2 NPU = 2TB/秒。帶寬要求至少為4TB/秒,工作在大約64 GB /秒範圍内的DRAM無法處理。是以,系統部署了64MB的SRAM。同時,SRAM移動32KB的資料隻需要消耗20pj的能量,而使用DRAM則需要100倍的能量(2000pj)。

64MB的SRAM足以容納神經網絡程式、輸入、權重和輸出。SoC的設計可以在裸片上包含SRAM。

SRAM的缺點是它的成本比DRAM高得多,而且密度低1/3左右。SRAM在帶寬和功耗上都比DRAM至少高一個數量級。蘋果、MobilEye和Tesla都在NPU和HC上部署了大量的SRAM。

即使下一代處理器(例如IBM POWER系統和AMD伺服器)具有PCIe Gen4接口,并且帶寬是PCIe Gen3的兩倍,但這仍然不足以支撐NPU。還必須考慮到,大量的下一代計算機将會以10-100 TB /秒的算力實作增長,并增長到PB /秒。

HC架構可以使用更小、更快的NPU,在大多數矩陣工作負載下,它們的擴充性都比GPU好得多。 

訓練NPU

神經網絡的訓練方法主要有三種,有監督、無監督和強化。最常見的是監督式訓練,對結果的正确與否進行回報。這種訓練需要大量的标記資料。

反向傳播是一套輔助神經網絡訓練的算法,用來識别事件或對象。該系統将實際輸出與神經網絡的預期輸出進行比較,然後修改權重(圖4中線條的粗細)以減小差異。網絡從輸出單元反向工作,通過隐藏神經元層到輸入神經元。随着時間的推移,反向傳播允許系統進行學習,使差異越來越小,最終達到精确的比對。此時,神經網絡已經“學習”了正确的輸出,并為推理測試做好準備。這個訓練過程是應用開發過程的一部分,需要大量的标簽資料,而且幾乎都是中心化的功能。

AI開發輸出的是推理代碼,在應用程式的生命周期中,推理代碼通常占總計算量的99%。而推理代碼不會學習。如果推理代碼接收到相同的輸入,它每次都會産生相同的結果,這對于合規性來說至關重要。Tesla利用這一事實,通過将所有的輸入分别發送到兩個處理器,并確定結果相同的方式,來自我檢查硬體是否正确運作。 

雖然NPU是新事物,但NPU的設計者和供應商數量衆多。這些包括阿裡巴巴、亞馬遜、AmLogic、蘋果、Arm、Flex Logic、谷歌、Graphcore、微軟、NPX、高通、NationalChip、三星、RockChip、特斯拉等。

 其它異構計算元件

這些包括DPU(資料處理單元)、DisplayPU(顯示處理單元)、ASIC和FPGA。未來還有很大的發展空間。

DPU從CPU中分擔以資料為中心的任務,包括資料傳輸、資料減少(壓縮和重複資料删除)、安全和加密、随時間檢查資料完整性、分析和自動化。Pensando等公司正在開發DPU解決方案。

DisplayPU專注于從GPU那裡分擔圖形管理功能。DisplayPU在虛拟現實(VR)應用程式中特别有用,這是一種非常具有挑戰性的實時矩陣工作負載。 

蘋果A13異構計算架構

在本項研究中,将蘋果A13 SoC作為異構計算架構的早期例子進行了深入的關注。在相鄰的研究中,Wikibon詳細研究了企業級的Tesla FSD,這是一個先進的企業級HCA。

下圖5是異構計算SoC Apple A13的晶片布局。該系統的元件是六個處理器,其中包括加速器,這些處理器占用了SoC面積的30%。其中還有一個GPU,占41%。将SoC變成異構計算體系結構的元件是NPU(面積占10%)、系統級緩存、以及48 MB的SRAM(面積占19%)。 

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖5:異構計算SoC的晶片布局,基于Arm的Apple A13

來源:Wikichip Wikibon于3/14/2020下載下傳基于Apple Arm的A13晶片布局。Wikibon 2020。

正如在上面的“神經處理器單元(NPU)”小節中了解到的,在推理模式下,神經網絡中最常見的運算是乘法/加法運算,占總數的99.5%。

Apple A13中的SRAM總量為48MB,批量購買成本約為30美元。SRAM允許元件之間的帶寬大于5TB /秒,而正常情況下主記憶體群組件之間的帶寬約為64 GB/秒。NPU中最常見的運算是乘法/加法運算,它在1個周期内完成。程式、權重、輸入和輸出都可以在SRAM中共享。NPU和CPU一直處于忙碌狀态。假設不使用GPU,以保持功率低于6.2瓦。 

這種架構極大地提高了處理的資料量。如果沒有NPU、加速器、系統級緩存和SRAM,Apple A13 CPU将以12 GHz或0.012 TOPS的速度運作(請參見 下面腳注2表3中的第17行)。使用異構計算元件,矩陣工作負載的總吞吐量(請參見 下面腳注2表3中的第24和25行)為6(NPU)+ 1(CPU +加速器)= 7 TOPS。與非HCA Apple架構相比,增幅為7÷0.012=>500倍。同樣,NPU是矩陣工作負載性能提升的原因。 

總結:定義異構計算體系結構

  • Wikibon将HCA定義為CPU、加速器、NPU、GPU和ASIC等其他元件的組合,以及靈活的、非常低延遲的高帶寬存儲和不同元素之間的互連。
  • 異構計算體系結構可以支援具有NPU、加速器的矩陣工作負載,并改進所有其它元件與 SRAM 和一緻的系統級緩存的內建。SRAM提供了存儲空間、帶寬和低功耗,可以驅動NPU 進行高效利用,并與其它元件互連。
  • 通過在基于Apple Arm的移動和平闆裝置中增加NPU,Apple引領了異構計算體系結構的快速采用。蘋果正在推出消費級掃描雷射雷達(光檢測和測距),并使用 NPU來驅動消費級的3D AR 矩陣工作負載。
  • 蘋果和谷歌現在正在使用NPU來從根本上改善面部識别、消費級攝影、視訊、音頻和虛拟現實服務的消費者軟體功能。越來越多的ioS和Android開發人員正在快速開發矩陣應用程式,包括遊戲應用程式。
  • 具有異構計算架構特性的蘋果 A13處理器的性能比沒有 HCA 特性的 A13處理器的性能提高了500倍。
  • 使用NPU的矩陣工作負載性能的提升要比GPU大得多,對SoC上真實空間的使用要少得多。可以很容易地增加多個NPU處理器,這對GPU來說是不行的。
  • 至少在一段時間内,用于向螢幕輸出圖形的GPU将主要繼續保持不變。許多基準都在使用一個公認的名額,即幀/秒(FPS)。更多的FPS意味着更好的使用者體驗。對于遊戲應用來說,如果幀/秒更快,遊戲就更順暢。随着新算法的發展,NPU的圖形輸出用途可能會随着時間的推移而發展。

HCA與x86的性能和成本效益

本節是對蘋果iPhone 11 Pro Max的異構計算架構與傳統的英特爾i7-1065G7第十代最新Ice Lake PC架構的性能和成本效益進行的詳細技術對比。 

方法

這裡的做法是将傳統x86架構與異構計算架構的性能和成本效益進行比較。這些比較是針對傳統工作負載和實時矩陣(推理)工作負載進行分析的。估計和測量性能是一門科學也是門藝術。特别是要對來自不同系統架構的CPU、GPU和NPU,并運作不同的工作負載時進行對比,這一點尤其棘手。

這些比較的結果是幫助得出一個合理的估計,即在異構計算與傳統x86架構上運作的傳統工作負載和矩陣工作負載的性能和成本效益。如果差異很大,則将支援這樣的論點,即系統架構将發生根本性的轉變。系統軟體和應用程式的更改等因素将産生大量阻力,并延長發生這些根本性轉變的時間。但是,收益越大、消除阻力的業務案例就越好,并且開發更進階的系統和應用軟體的速度就越快。 

選擇的工作負載是使用Apple TrueDepth技術的面部識别系統。Apple目前沒有此技術的可用版本。可以在下面的腳注部分的腳注3中找到這套矩陣工作負載的完整詳細資訊。在本實驗中,作為地點位置管理者,您有責任選擇運作該系統的平台。選擇平台所需的部分資訊是所選平台的性能和成本效益。 

架構比較

下圖6的左側展示了傳統x86 Intel 17-1065G7處理器的處理器管芯布局。右邊是基于Arm異構計算架構的Apple A13處理器的晶片布局。這顆晶片類似于上面“異構計算架構示例”小節中圖5的分析。

英特爾i7-1065G7處理器SoC是傳統的x86架構,主要用于從入門級到中型體積的移動PC。Gen 11 GPU與上一代GPU相比從24個執行單元增加到64個執行單元。這些元件與4個Sunny Cove CPU一起,通過系統級緩存、環形互連和8MB L3 last-level SRAM緩存(LLC)互相互連。SRAM的總數為17 MB。SoC和DRAM之間的通信具有大約64 GB /秒的記憶體帶寬。

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖6:英特爾i7-1065G7 Ice Lake SoC和基于Arm的Apple A13 SoC晶片布局。

來源:Wikibon于2020年3月14日由Wikichip Intel i7-1065G7 Die Layout下載下傳。Wikibon于2020年3月14日下載下傳基于 Wikichip Apple Arm的A13模具布局。Wikibon 2020。

圖6的右側是具有異構計算架構的基于Arm的Apple A13 SoC。有一個GPU、兩個高速的Lightning CPU和四個緩速的Thunder CPU,還有一個NPU。它們都通過一個大的系統級緩存與大量的SLC SRAM互相連接配接。A13 SoC上的SLC SRAM總量為48MB,遠高于傳統的x86架構。是以,所有異構計算元件之間可以達到5 TB /秒的帶寬,這比傳統x86 Intel處理器快約100倍。

下面列出了通過比較上面圖6中的兩種體系結構得出的最重要的結論。

  • GPU占用大量空間。英特爾GPU占據了處理器空間的57%,蘋果GPU占據了41%。空間意味着面積、半導體數量和耗電量。是以将額外的GPU添加到SoC以執行矩陣計算不是一個可行的選擇。
  • 關于晶片上的處理器專用空間,Apple需要45 mm 2、小于Intel 的72 mm 2。Apple A13裸片制造采用7nm與EUV(Extreme UltraViolet)工藝,比英特爾先進了兩代。是以,蘋果的半導體密度更高,為1.16億個/ mm 2。英特爾最早的宏偉目标是在其10nm晶圓上實作1.08億個/ mm 2的密度,但由于生産良率和品質問題,不得不削減到6700萬個/ mm 2(估計)。兩種架構的處理器半導體數量大緻相同,這意味着兩種CPU架構對于傳統計算工作負載的預期性能很可能相似。 
  • A13的功率要求為6.2瓦,而英特爾處理器的功率為25瓦。在iPhone上,蘋果公司重點使用了先進的7nm EUV制造技術來降低功耗。蘋果已做出大緻聲明,表示與以前的A12處理器相比,A13的性能提高了20%,功耗節省了35%。晶片上有足夠的空間來為iPad添加更多功能,這些功能可以以最高15瓦的功率運作。可能針對Mac會出現更高性能,更高功率的基于Arm的SoC!
  • 以上七個部分得出的總體結論是,像蘋果A13這樣的基于Arm的處理器對于傳統工作負載的性能應該和英特爾x86處理器差不多。
  • 對于矩陣工作負載的總體結論是,采用NPU的蘋果A13的異構計算架構有可能比英特爾x86處理器快得多。

有關本節中的任何分析,請參見下面腳注1中的注意事項。

 比較蘋果和x86的性能和成本效益

下表1是以下腳注 2中表3的摘要。它比較了傳統x86架構和基于Arm的Apple異構計算架構的性能和成本效益。工作負載性能分别有傳統(顯示為黃色行)和矩陣(顯示為紫色行)。

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

表1:彙總表——比較在基于Arm的Apple異構計算和傳統x86架構上運作的矩陣工作負載和傳統工作負載的性能和成本效益來源:©Wikibon,2020年。有關其他行和解釋,請參見腳注2中的表3 ,資料源,假設和計算的詳細資訊。

基于Arm的Apple異構計算體系結構的詳細資訊在表1的第二行和第三行中,在左側以綠色表示。該産品是消費級的iPhone 11 Pro Max。搭載英特爾x86架構的Ice Lake i7-1065G7第十代CPU PC系統的詳細資訊在另一側,以藍色顯示。

表1中的第21行展現了綠色數字表示的Apple HCA iPhone和藍色數字表示的x86(設定為1)之間的性能比。工作負載設為傳統時,其比值為0.95:1。這個比值是依據腳注2中表3的第19行和第20行,來自2019年Geekbench單核和多核成績,并在表3後面的注釋中描述。這個結果并不意外,因為基于Arm的系統的性能已經趕上了英特爾,并且在一些資料中心的領域超過了它。

表1中的第22行展示了傳統工作負載的成本效益對比。它們基于下面的表3第2-10行。英特爾x86系統的價格估計為1825美元(表3的第10行),基于iPhone 11技術的系統價格估計為505美元(根據實際價格(表3第10行)482美元÷表1第22行的0.95計算)。如第22行最後一列所示,成本效益對蘋果有利,為3.6:1。

表1中的第27行展現了綠色數字表示的Apple HCA iPhone與藍色數字表示的x86(設定為1)的性能比為50:1。工作負載設定為矩陣,第23行最後一列的比值為50:1。這種計算很複雜,在下面的腳注表3之後的“矩陣工作負載的TOPS計算:第23-27行”小節中的注釋中有詳細說明。TOPS指的是每秒萬億次操作,是GPU營銷中最常用的噱頭數字。該表中的GPU聲明已修改,以反映現實世界中實時矩陣工作負載的性能。表1第26行的TOPS等級是GPU + CPU + NPU的總和。對于Apple HCA,這個值是0 + 1 + 6 = 7,對于x86,這個值是0.11 + 0.03 + 0 = 0.14。比率是7÷0.14 = 50。差距如此之大的原因是,與實時矩陣工作負載中的GPU相比,帶有SRAM的NPU的效率更高。 

表1中的第28行顯示了矩陣工作負載的成本效益對比。它是由第22行÷第27行計算得出的。最後一列的成本效益比值是190:1,并且具有NPU的基于Arm 的Apple系統比傳統的x86平台便宜兩個數量級。

表1中的第29行顯示了4年期運作矩陣工作負載的不同體系結構的電力成本。計算結果包括電源成本、每千瓦時0.12美元的電費,以及比率為2的PUE(電源使用效率)。這兩種架構之間的比值為179倍,Arm同樣比傳統x86平台的功耗低兩個數量級以上。 

其它異構計算平台

神經網絡處理器單元(NPU)的其它供應商包括阿裡巴巴、亞馬遜、AmLogic、蘋果、Arm、Flex Logic、谷歌、Graphcore、微軟、NPX、高通、NationalChip、三星、RockChip、特斯拉等。這些廠商中的絕大多數都與Arm有着緊密的關系,是Arm的授權商。

 Nvidia是該清單中的一個例外。Wikibon希望Nvidia将在18個月内填補這一空白,并将NPU納入其CUDA軟體架構。Nvidia其實也是Arm的授權方,與Arm長期合作。 

總結:HCA與x86性能和成本效益

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

表2:執行摘要表–适用于傳統和矩陣工作負載的Arm主導的Apple異構計算和傳統x86體系結構的性能與成本效益之間的比較

來源:©Wikibon,2020年。請參見腳注中的表3和資料說明,以擷取詳細資訊來源,假設和計算。

表2總結了基于Arm的Apple異構計算和傳統x86架構之間的性能和成本效益。傳統工作負載顯示在黃色行上,而矩陣工作負載顯示在紫色行上。表2是上文“執行摘要”中圖1的來源。 

主要結論是:

  • 對于傳統工作負載,基于Arm的A13性能比x86(0.95:1)稍慢。成本效益是後者的3.6倍。
  • 對于矩陣工作負載,基于Arm的異構計算性能比x86快50倍。成本效益超過150倍。
  • 矩陣工作負載的電源成本和電源需求成本比傳統x86架構節省了兩個數量級。

Arm設計的重要性

分離處理器設計與制造

許多供應商表示,“企業級”計算比“消費級”裝置需要更進階别的健壯性和恢複能力。這是事實,然而這些廠商忽略了處理器行業的根本變化。傳統的處理器設計和生産的垂直整合已經發生了變化。現在處理器的制造和生産由台積電和三星等公司主導,處理器的設計由日本軟銀旗下的Arm主導。

Arm公司擁有一套合格的标準功能處理器元件設計組合。這些也是由合格的晶圓廠制造的。處理器廠商,如蘋果、AWS、富士通、高通、微軟、英偉達、三星、特斯拉等,可以專注于(可能)一兩個元件的創新,其餘的則采取标準元件。Arm公司已經推出了NPU。Arm公司已經将針對傳統工作負載的Neoverse E1和N1伺服器引入其設計組合中。AWS、富士通、微軟、Nvidia、Tesla等公司已經在企業的高性能高可用性環境中使用基于Arm的處理器。

 分離的好處

設計和制造分離的結果是,大幅縮短了處理器創新的周期。50:1的性能變化是一場設計革命,而不是進化。基于Arm的設計模型在處理器的元件級别就擁有了體積優勢,而不是在更大的SoC級别。與x86相比,基于Arm的處理器已經占全球晶圓廠晶圓數量的10倍。這一數量降低了基于Arm的元件和SoC的成本。是以,才有了前面分析的成本效益差異。

相比于傳統的5年以上的內建處理器周期,這種分離對于消費類和企業級計算來說,是一個更高效的創新引擎。不同的實時矩陣工作負載将受益于運作在為該特定類型矩陣工作負載優化的架構上。Wikibon認為,由此産生的創新将從根本上改變這2020年代的伺服器和系統架構,以及企業的計算配置設定政策。

 分離的結果——推理伺服器

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖7:Arm NPU的技術細節

來源:Arm Ltd. 2020,資料由Wikibon編譯

推理NPU現已投入量産。通過檢視Arm的NPU設計範圍可以說明NPU的引入速度。圖7顯示了Arm公司目前的NPU設計範圍。Arm在2019年推出了其第一款NPU設計,即Ethos-N77。

Arm在2020年初推出了Ethos-U55。U55是一款适合小外形尺寸的微型NPU設計。

Arm Ethos-N78于2020年5月推出,規格有了顯著改進。它現在支援台積電的6nm EUV技術。

目前Arm NPU設計的弱點是還不能支援較大數量的SRAM。目前,每個NPU限制為4MB。特斯拉每個NPU有32MB SRAM,與蘋果處理器中的數量差不多。Wikibon希望在将來的設計版本中可以解決此問題。

目前,異構計算領域的領先者是消費級主導的開發專業技術和Arm主導的硬體系統。Arm主導的系統性能現在等于或超過傳統的x86系統。Wikibon期望Arm主導的硬體、架構和軟體在未來十年内将主導企業異構計算市場。

Wikibon預計,未來十年,AI推理系統将增長到AI系統支出的99%。開發訓練部分将減少到1%左右。在早前的研究中,Wikibon預測到2020年代末,矩陣工作負載将增長到企業計算收入的42%。

 分離結果——x86規模的分擔和替換

大約20%的處理專用于管理存儲和網絡。這是相對容易分擔的工作,特别是對于大型雲資料中心來說。一個例子是AWS Nitro系統,它是EC2執行個體的基礎平台,使AWS可以解除安裝存儲和網絡服務。此外,Nitro還可以幫助AWS改善這些服務的性能和安全性。另一個例子是最近被Nvidia收購的Mellanox,他們在ConnectX SmartNIC上用基于Arm的處理器解除安裝存儲網絡。諸如NVMe over Fabrics(NVMe-oF)存儲的RDMA加速和高速視訊傳輸等功能可以從通用CPU上解除安裝下來,性能更快,安全性更高。在基于Arm的專用伺服器上可以更高效地處理特定工作負載的解除安裝将繼續增長。

随着部分工作負載從x86遷移到基于Arm的伺服器,基于Arm的伺服器還将對雲資料中心産生越來越大的影響。AWS和Microsoft Azure很好地完成了此過程。在re:invent 2019上,AWS宣布了AWS Graviton2處理器,該處理器由Amazon Web Services使用64位Arm Neoverse核心定制建構。這些核心可為AWS M6g、C6g和R6g EC2執行個體降低40%的成本,并提供同等或更好的性能。

此外,Arm還推出了Neoverse N1和E1高性能架構,作為x86處理器的高性能和低功耗直接替代品。Ampere現在正在發售Ampere Altra,這是一種基于Arm Neoverse N1平台的具有80個核心的64位Arm處理器。功耗僅為211瓦。 

分離結果——市場影響

下圖8顯示了低成本和高性能的基于Arm的處理器将對企業伺服器市場産生的影響。2019年企業伺服器市場總額為760億美元,Wikibon預計到本十年末它将增長到1130億美元。從存儲和網絡功能遷移轉到基于Arm的處理器的收入以藍色顯示。引入用于傳統工作負載的Arm處理器的收入以綠色顯示。最後,灰色顯示了矩陣工作負載的引入,這将需要異構計算體系結構。

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

圖8:按工作量細分的基于Arm的Enterprise Server增長來源:Wikibon,2020年。此預測假定x86供應商的設計和生産政策不會發生重大變化。

Wikibon預測,到本十年末,企業伺服器市場的72%将是基于Arm的伺服器。這種遷移速度的根本原因是量産帶來的成本降低,為特定工作負載而建構的伺服器創新速度加快,因而能更好地利用晶圓廠,以及因為阿裡巴巴、亞馬遜、谷歌和微軟等大規模雲提供商而減少了來自軟體互相不相容而産生的障礙。需要強調的是,圖8中的Wikibon預測假設x86廠商的設計和生産政策不會發生重大變化。

最後一點是,Arm Ltd.是軟銀在日本以外擁有的英國公司。許多歐洲和遠東國家正悄悄地希望減少對美國處理器技術的依賴。 

總結:Arm設計的重要性

  • 處理器設計和制造的分離為消費級和企業級帶來了更快的創新周期。蘋果和特斯拉等公司可以通過對系統的其餘部分使用基于Arm的标準設計來發展NPU創新。是以,創新時間減縮短了一半或更多。這會帶來更多的設計和更高的産量,進而導緻成本降低。
  • 最大的雲提供商正帶頭遷移到基于Arm的伺服器,因為它們具有進行相應軟體變更的規模效應。Arm的第一種用途是分擔存儲和網絡壓力,第二種是将Arm處理器用于特定的工作負載,第三種是使用基于Arm的異構體系結構。Wikibon預測,到本十年末,約有72%的伺服器支出将用于更多種類的基于Arm的伺服器。 

全文結論

分離設計和制造,使得業界其它廠商在這兩個領域的創新速度比x86廠商更快。領先的處理器晶圓廠使用7nm與EVA,并且正在部署5nm的道路上。更小的制程意味着速度更快,功耗也會降低一些。Arm是領先的設計者,擁有一套廣泛的處理器元件,這使得處理器廠商可以把标準部件和設計精力集中在特定的差異化部件上。需要強調的是,本研究中的Wikibon Arm假設是x86供應商繼續采用目前政策。 

異構計算架構 

本項研究表明,異構計算體系結構可以以比傳統x86體系結構低兩個數量級的成本運作矩陣工作負載。HC體系結構是由處理器的廣泛選擇和極高的帶寬來定義的。蘋果和特斯拉提供的性能最高的系統包括帶有大量SRAM的神經網絡處理器單元(NPU),以驅動其互連性和中間存儲。這些系統能夠以比帶有內建GPU的傳統x86系統快50倍的速度運作推理AI應用程式,并且成本效益要高出150倍以上。Wikibon預測,這種運作矩陣工作負載成本的巨大變化将帶來五個重大變化。

在未來五年内,将GPU用于非圖形推理工作負載的速度将會放緩。它們仍将緻力于多邊形變換的工作負載。通常,NPU的較低成本和較高性能将帶來部署NPU的新方法。随着NPU軟體架構的成熟以及NPU專業技術的普及,這一趨勢将加速發展。

處理器設計和制造的分離至少導緻創新速度翻了一番。由設計公司Arm公司上司。蘋果等處理器公司能夠從Arm公司獲得标準設計SoC元件,并專注于NPU等創新,以提高實時AI推理軟體的性能。結果,這些應用程式以毫秒為機關傳遞結果,而不是幾秒鐘。

特斯拉能夠建構定制的HW3異構計算系統,使用基于Arm的建構塊在不到3年的時間内對其進行部署,并實作了比之前的GPU解決方案運作速度快21倍的解決方案。如果沒有設計和制造分離,則需要6年以上的時間,且伴随着巨大的失敗風險。

資料主導的營運架構

人類是過濾海量資料的專家,并使用神經網絡來實作這一點。之後,他們隻記住重要的東西,并丢棄輸入的資料。基因組計算也是如此,它從海量資料開始,以超過100:1的倍數減少資料,隻剩下大量描述染色體和基因的有用資料。

特斯拉是一家完全由資料主導的公司。它每秒鐘從車隊中所有正在行駛的車輛中持續捕獲30億位元組的資料。HW3在處理所有這些資料時,要麼是以影子模式(在影子模式下,它正在将自己的計劃與司機的實際執行情況進行比較),要麼是在司機偶爾的指導下實際自動駕駛汽車。隻有特殊的資料才會被回報回來,比如說,險些失誤或事故。開發團隊也可以要求采集特定的、異常的資料,比如看司機如何處理附近的大型動物。十分鐘後,緩沖區的資料會被覆寫。

特斯拉的資料架構是一種資料導向的營運架構,如圖2所述。這種資料處理的效率使特斯拉能夠采集整個車隊的資料。74 TOPS系統的成本約為1600美元,相機和傳感器的成本約為1400美元。每輛汽車的成本為3000美元,特斯拉可以從其全球超過100萬輛汽車的完整車隊中采集資料。

 以資料為主導的政策

特斯拉擁有所有資料,并可以探索使用此資料擴充傳統汽車市場的新方法。例如,特斯拉唯一知道誰在駕駛以及駕駛狀況如何,并且可以在數分鐘内有選擇地提供保險,或者提供住宿或用餐場所的選擇。特斯拉與MobilEye斷絕了關系,因為他們的長期商業利益不一緻,特斯拉設計了一台計算機,以確定它仍然是一個資料主導的企業。

資料主導型企業的核心是能夠在資料産生的地方實時提取資料的價值,并實作自動化。運作矩陣工作負載的異構計算架構、資料主導的營運架構、利用DataOps工具設計端到端的企業資料架構,都是建立資料主導的企業和文化的重要内容。 

行動項目

IT主管

進階管理人員應該評估異構計算架構、矩陣工作負載和資料主導的營運架構如何協助或啟動企業資料主導戰略。Wikibon預計,如果不能在資料主導的矩陣工作負載上進行投資,将導緻許多行業的業務失敗,尤其是汽車行業。 

伺服器供應商主管

Wikibon希望在2026年及以後出現完整的5級自動駕駛軟體和硬體。世界上大約有10億輛各類車輛。每輛車的單價将在2000美元至5000美元之間。該行業的一些細分市場,如軍用車輛,将會标注更高的價格。

從2024年開始,TAM市場的總規模約為4萬億美元,并在接下來的20年中逐漸擴充,每年的TAM平均擴充規模為2000億美元。更新換代的TAM将在每年裝機量的10%左右。在政府認證和合規方面的專業知識将處于優勢地位。

此外,還有一個相鄰的固定和半移動的工業和消費裝置市場,其機關成本較低,但整體TAM相似。

 軟體供應商主管

Wikibon将在未來的研究中讨論矩陣工作負載軟體。 

腳注: 

腳注1

關于裸片布局,要提醒一下的是,英特爾并沒有釋出太多關于他們10納米+SoC的詳細資訊。雖然WikiChips和維基百科有優秀的、知識淵博的貢獻者,但他們并不是萬無一失的!

 腳注2

矩陣計算與AI革命:可将計算性能提高150倍的異構計算

系統成本:第1-10行

綠色欄中的1-8行顯示了Apple iPhone 11 Pro Max的拆解成本。 這項研究僅采用了建立異構計算伺服器來運作面部識别軟體(Matrix工作負載)所需的元件。例如,螢幕成本不包括在内。由于該産品的高消費量,是以成本很低。

紅柱中的1-8行顯示了英特爾系統的等效成本。處理器的費用來自英特爾網站。其它成本由Wikibon估算。一般來說,由于英特爾PC平台的架構和體積要小得多,是以連接配接元件的成本很高。

  • 英特爾PC i7-1065G7處理器的價格是Apple A13處理器的6.7倍。
  • 額外的PC系統元件比iPhone元件貴2.4倍。 

第9行是兩個面部識别系統的總物料清單成本,計算方式為第1-8行之和。 

第10行是每個系統的預期銷售價格,假設兩個系統的提升幅度是第9行的2.5倍。 

  • 總體而言,帶有PC  元件的面部識别系統比iPhone元件貴3.9倍。
  • 這兩個系統在傳統工作負載下的性能大緻相同,這将在下一部分中介紹。

測試計算傳統工作量:第19-22行

本部分使用著名的跨平台測試軟體Geekbench。它會運作單核和多核工作負載。每個單核工作負載都有一個多核對應的工作負載。有三種工作負載類型。它們分别是密碼學(5%的權重)、整數(65%)和浮點(30%)。

假設和計算如下:

  • 所有行均為黃色,并評估兩種體系結構上的傳統工作負載。
  • Geekbench是跨平台基準測試,具有單核和多核打分。
  • 假設i7-1065G7沒有外部GPU,并且沒有外置散熱。
  • 第19行是兩個平台在正确瓦數下的單核Geekbench 5得分。
  • 第20行是兩個平台在正确瓦數下的多核Geekbench 5得分。
  • Apple A13平台的第21行是(A13單核和多核分數的調和平均值)÷(i7-1065G7單核和多核分數的調和平均值)= 0.95
  • 英特爾i7-1065G7平台的第21行設定為1。對于傳統工作負載,A13比i7-1065G7的性能慢5%左右。
  • 第 22 行顯示了成本效益。配置的銷售價格顯示在第10行。第22行=第10行/第21行。Intel i7-1065G7系統的價格性能是Apple A13系統的3.6倍。
  • 結論:基于Arm的移動裝置蘋果在傳統工作負載性能方面已經趕上了x86移動裝置,并且成本效益高出三倍以上。

未來Wikibon的研究将表明,Arm已經趕上了x86資料中心處理器,并提供了更好的成本效益。雖然有許多基準測試,但跨平台基準測試很少。基準測試隻是資料點。對第11至18行的分析還表明,英特爾和蘋果移動處理器的傳統工作負載性能可能是相似的。在一些特定的傳統工作負載中,會有其中一個系統發揮作用。

矩陣工作負載分析顯示了一個截然不同的故事。 

矩陣工作量的TOPS計算:第23-27 行

用來評估系統性能的另一個名額是TOPS或每秒操作數。該過程是擷取系統的所有元件,并為每個元件累加TOPS值。例如,如果CPU的TOPS值為0.5,GPU的TOPS值為1,而NPU的TOPS值為6,則整個系統的TOPS值為7.5。您可能會想到,營銷部門喜歡此名額的簡單性。

正如之前所說,性能名額隻是資訊。總體TOPS資料指的是,在工作負載允許每個元件以100%運作時,系統可以運作的最大速率。當然,這種使用率實際上是不可能實作的。

Wikibon研究表明,GPU具有最高的TOPS等級,并且是高估矩陣工作負載性能的最大罪魁禍首。Wikibon的方法是将這一名額原封不動地用于處理器和NPU,并根據可實作的大緻使用率百分比調整GPU的TOPS值。

  • 第23-27行為紫色,用于評估兩種體系結構上的矩陣工作負載性能。
  • 英特爾将i7-1065G7 中GPU 的峰值速率定為1.024 TOPS,峰值頻率為1.1 GHz。但是,保證的基本額定值為0.3 GHz。是以,保證的TOPS = 1.024×0.3÷1.1 = 0.28 TOPS。一個合理的假設是,此GPU的可持續吞吐量約為保證速率的2倍,即0.28×2 = 0.56 TOPS,以保持在25瓦功率限制内。
  • 同樣,用于實時矩陣工作負載的任何GPU都需要具有批處理大小= 1的設定。這個設定優化的是延遲,而不是吞吐量。但是,根據粗略的經驗,此設定意味着吞吐量将下降到可持續吞吐量的大約10%-20%。在下面的計算中,假設為20%。
  • Wikibon評估英特爾GPU對實時矩陣工作負載的持續TOPS等級是0.56×20%= 0.11 TOPS。結果顯示在藍色列的第23行中。
  • 假定不使用Apple A13的GPU(将其設定為0 TOPS)以将功率保持在6.2瓦以下。結果顯示在上面表3的第23行的綠色欄中。
  • i7-1065G7有4個核心,每個核心帶有兩個線程,主頻為3.5 GHz。TOPS等級為2×4×3.5÷1,000 = 0.028 TOPS。 結果顯示在上面表3的第24行的藍色欄中。
  • 蘋果公司将帶有加速器的處理器定為1 TOPS。上面表3中第24行的綠色欄中顯示了這一點。
  • 由于i7-1065G7沒有NPU,是以值為0 TOPS。蘋果将A13 NPU評為6 TOPS。 這些顯示在上面表3的第25行中。
  • i7-1065G7的總TOPS為0.11 + 0.028 + 0 = 0.14 TOPS。蘋果A13的總TOPS = 0 + 6 + 1 = 7 TOPS。 這些顯示在上面表3的第26行中。
  • TOPS性能之比A13 / i7-1065G7 = 7:0.14 = 50:1。這些在上面表3的第27行中顯示。
  • 結論: 
    • 用于确定不同架構下矩陣工作負載的相對性能,TOPS并不是一個很好的名額。Wikibon已經調整了GPU的TOPS評級,提高了準确度,但它并不是一個可靠的名額。
    • 這個性能研究的結果有不完善之處,但它表明采用NPU的異構架構比采用GPU的傳統架構快50倍。
    • 這是一個合理且極有可能得出的結論,即異構體系結構比矩陣工作負載的傳統方法快一個數量級。

注意:AI訓練工作負載  不是  矩陣工作負載,因為它不是實時的。訓練工作負載通常是分批的,這将顯著提高GPU吞吐量。目前,訓練在AI計算能力中占比很高,但在這十年中,推理将更加重要。 

矩陣工作負載的成本效益計算:第28 行

  • 矩陣工作負載的價格-性能是通過取第10行的銷售價格除以第27行的相對性能計算出來的(x86=基數)。異構計算的每性能機關價格為9.62美元,傳統體系結構的每機關性能價格為1825美元。比率為190:1,有利于異構計算。
  • 結論:一個合理且極有可能得出的結論是,異構體系結構比矩陣工作負載的傳統方法要便宜兩個數量級。 

電力成本:第29行

表1中的第29行顯示了運作矩陣工作負載的不同體系結構的4年電力成本。計算包括電源成本(第8行),每千瓦時0.12美元的電費,并假設PUE(電源使用效率)比率為2。兩種架構之間的比值為179倍,同樣比傳統x86平台的功耗低兩個數量級以上。

 結論:

  1. 上表3在兩邊均使用了TOPS這個說法。TOPS對于實際工作來說是一個失敗的名額。該名額易于計算,但大幅高估了實際效果。即使Wikibon進行了複雜的修改,它也遠不能可靠地給出真實世界應用的性能。
  1. Wikibon對異構計算和傳統計算之間的50:1的比例應該謹慎對待。但即便如此,這個比例仍然很可能很高。
  1. 一個更好的長期衡量标準和性能估計基礎是不同矩陣工作負載的多個基準資料。
  1. 矩陣工作負載非常不同,在傳統體系結構上無法很好地工作。
  1. Apple A13異構計算體系結構更适合這些工作負載,并且可以通過多個NPU擴充并行性,以處理更大的工作負載。
  1. 未來的Apple A13X和A14晶片将具有更高的性能,更大的峰包功率和改進的體系結構。
  1. Apple / TSMC和Google /三星在消費級矩陣應用程式上進行了大量投資,其創新率很高。
  1. 企業矩陣工作負載不太可能在GPU或傳統x86架構上很好地工作。基于Arm的解決方案似乎将成為在移動、PC、分布式伺服器和資料中心解決方案中運作矩陣工作負載的主流。

腳注3:面部識别矩陣的工作量

這種理想型實驗的工作負載是設計一個面部識别系統,以百分之百的信心確定沒有未經授權的人無法進入高度安保的設施。這裡有一個合規性要求,就是要有一個特定的記錄,記錄任何人在任何時候進入或曾經進入過該設施。每天都有成千上萬的人進出該設施。入口和出口的數量有限。

被授權進入的每個人都擁有一個機器可讀的卡。該系統的工作是讀取卡,使用紅外3D光掃描面部,并将輸入系統中記錄的面部與系統中儲存的面部記錄進行比較。隻有本人持卡親臨現場,持必要的授權檔案,才能将新的人臉記錄錄入系統。此時人臉資料才會被錄入系統。

為了避免潛在地濫用面部資料(例如更改面部資料記錄),面部資料隻能儲存在該站點上,不能被任何其它應用程式通路,也不能被面部識别系統以外的任何其他裝置讀取或寫入。必須對每一次通路面部資料的行為進行不可更改的記錄,但面部資料不包括在此記錄中。在任何試圖通路這些資料的情況下,面部資料必須自毀。

顯然,手動系統不能滿足百分之百的要求。這個理想型實驗中的一個假設是Apple商業化并提供了運作面部TruDepth識别系統的軟體。 

【原文連結:

https://wikibon.com/Arm-yourself-heterogeneous-compute/

繼續閱讀