2022年9月20日美國太平洋時間上午8點,英偉達2022年GTC大會召開,對于自動駕駛行業來說,最引人注目的自然是最新自動駕駛晶片Thor。
圖檔來源:英偉達
英偉達取消了2021年GTC大會上所釋出的Atlan,改用Thor取代,單從名字上,Thor就更勝一籌,Atlan取自亞特蘭蒂斯神話,是Orin的父親,不過在神話裡,Atlan從未出場,是一個已經死掉的國王,而Thor想必大家都知道,就是雷神Thor。據英偉達的描述,中國吉利旗下的極氪已經确定使用Thor,搭載Thor的車型預計在2025年底上市。
圖檔來源:英偉達
Thor有幾大看點:
- 一是超高AI性能,擁有770億半導體,而上一代的Orin是170億半導體。AI性能為2000 TFLOPS@FP8。如果是INT8格式,估計可以達到4000TOPS。
- 二是支援FP8格式,英偉達、英特爾和ARM三家聯合力推FP8格式标準,力圖打通訓練與推理之間的鴻溝。
- 三是超高CPU性能,Thor的CPU可能是ARM的伺服器CPU架構V2或更先進的波塞冬平台。
- 四是統一座艙、自動駕駛和自動泊車,一顆晶片包打天下。
為什麼放棄Atlan,最主要原因可能是因為FP8格式的支援,從英偉達對Atlan的性能描述是1000TOPS推斷,Atlan不支援FP8格式,而FP8是英偉達的戰略方向。
圖檔來源:英偉達
2022年9月,英偉達、英特爾和ARM聯合釋出一篇論文《FP8 FORMATS FOR DEEP LEARNING》(連結為:https://arxiv.org/pdf/2209.05433.pdf)。
圖檔來源:ARVIX.ORG
FP8值得深度分析,我們都知道,人工智能或者說深度學習分兩步,第一步是訓練,訓練的資料精度要求比較高,通常是FP64或FP32,即單精度和雙精度。推理階段一般是INT8,即整數8位。理論上推理階段使用整數8位将會降低很多精度,但實際使用中不得不這樣做:
- 一是存儲模型的尺寸,32位或16位太高了,比如自動駕駛用的圖像識别模型ResNet-50 v1.5的參數量大概是25M個FP32,如果通信時轉成FP16,則通信的梯度大小大概是50MB,但因為AllReduce的通信量大概是梯度大小的2倍,是以通信量大概是100MB。存儲尺寸大約是200-220MB,這個尺寸根本放不進L3緩存,是以成本高,效率低。
- 二是FP16或FP32的吞吐量不夠,會卡住。
- 三是浮點運算複雜,很多計算架構不支援浮點運算,需要添加單獨的浮點運算處理器,浮點運算也比較消耗時間。是以推理端改用整數運算,大大降低運算難度。但是整數8位的精度太低了,難免會影響準确度,要知道深度學習自動駕駛,無法識别目标就認為是背景,直接不減速撞上去,此類事故層出不窮。
圖檔來源:ARVIX.ORG
INT8的取值範圍有兩種,一種是負128到正127,另一種是0到255。INT8占一個位元組,即8比特,每個二進制可以存儲0和1兩個數值,那麼8個2次方即256種排列組合,256個數。INT16即2的16次方,即65504。
圖檔來源:ARVIX.ORG
FP32 是單精度浮點數,用8bit 表示指數,23bit 表示小數;FP16半精度浮點數,用5bit 表示指數,10bit 表示小數;BF16是對FP32單精度浮點數截斷資料,即用8bit 表示指數,7bit 表示小數。TF32是英偉達獨創的一種格式,一種截短的 Float32 資料格式,将 FP32 中 23 個尾數位截短為10 bits,而指數位仍為 8 bits,總長度為 19 (=1 + 8 + 10) bits,嚴格地說應該叫FP19。
圖檔來源:ARVIX.ORG
浮點格式能夠更加精确地表示10進位制的數,特别是帶小數點的數,傳感器的數值大多如此,是以資料訓練必須用浮點。
圖檔來源:ARVIX.ORG
ARM、英特爾和英偉達合作的FP8格式分為兩個标準:
- 一個是E4M3,即1個符号,4個指數,3個尾數,精度高但動态範圍小。
- 另一個是E5M2,即1個符号,5個指數,2個尾數,動态範圍高但精度低。
自動駕駛适合E5M2格式。
英偉達以GPU起家,GPU最初就是為浮點運算而生的,到目前為止,GPU也就三家,英特爾、英偉達和AMD,門檻極高。而目前所有的AI推理端運算都是為整數定點運算設計的,無法對應浮點運算,如果轉為浮點運算,難度将激增,也就是說如果想和英偉達對标,單獨的AI晶片廠家将無能為力,會被拖死。英偉達的另一個野心是用FP8格式,不僅橫掃推理端,訓練端也使用FP8格式。大部分的自動駕駛資料訓練都是英偉達晶片做的,如果訓練也用FP8格式,速度會飛速增加,精度略有下降。而轉到推理端,如果用FP8格式,那麼訓練和推理無縫連接配接,效率和準确度都輕松秒殺整數8位推理。也就是說用了英偉達的訓練晶片,也得用英偉達的推理晶片,單獨的AI晶片廠家無生存之地。
接下來看CPU。
圖檔來源:ARM
ARM Neoverse即ARM的伺服器産品線,這條産品線又分三條,首先是追求高性能的V系列,其次是追求效率的N系列,最後是追求吞吐量的E系列。亞馬遜的Graviton、阿裡的倚天系列和華為的鲲鵬系列都是ARM V系列伺服器的代表作。
V2代号Demeter,即希臘神話中的農業之神,也是歐洲有機食品的最高等級認證,Poseidon是希臘神話的海洋之神波塞冬,同時也掌管馬匹,賜給人類第一匹馬,據說特洛伊的木馬計實際源自波塞冬。按照時間線,英偉達似乎是趕不上波塞冬這班車的,因為Thor肯定是2022年初甚至2021年底就開始确定CPU架構了,但也許ARM特别照顧英偉達,英偉達也有可能使用波塞冬平台。波塞冬平台目前未獲得任何公開資訊。
圖檔來源:ARM
V2主要增加了L2緩存,當然與之配合也得至少是5納米制造技術,深度學習方面則對BF16有支援。
支援DDR5。圖檔來源:ARM
圖檔來源:ARM
最關鍵是支援最新的Chiplet标準UCIe,當然CXL也支援。
圖檔來源:ARM
一顆晶片包打天下,包括自動泊車、自動駕駛、Infotainment、儀表、電子後視鏡、電子倒車鏡、駕駛者行為監測。一顆晶片至少運作三種作業系統,三個獨立的計算域。
英偉達在9月20日的會上還推出了最廉價的Orin,即Orin Nano,其有兩個版本,低配隻有20TOPS,可能隻有4核A78AE,512個CUDA單元,16個Tensor核心;高配40TOPS,有6核A78AE,1024個CUDA單元,32個Tensor核心。這樣Orin就有高中低4個版本,估計Thor也是如此。
英偉達最大的敵人不是高通,也不是Mobileye,而是美國政府,以目前中美摩擦螺旋上升态勢,英偉達晶片遲早被美國禁止出口或被中國禁止進口,這隻是個時間問題,筆者認為吉利肯定有後備計劃,那就是吉利和ARM合資的芯擎科技。
聲明:本文僅代表作者個人觀點。
更多佐思報告
報告訂購及合作咨詢請私信小編。
佐思2022年研究報告撰寫計劃
智能網聯汽車産業鍊全景圖(2022年8月版)
自主品牌主機廠自動駕駛 | 汽車視覺(上) | 高精度地圖 |
合資品牌主機廠自動駕駛 | 汽車視覺(國外) | 高精度定位 |
商用車自動駕駛 | 汽車仿真(上) | OEM資訊安全 |
低速自動駕駛 | 汽車仿真(下) | 汽車網關 |
ADAS與自動駕駛Tier1-國内 | 雷射雷達-國内篇 | 行泊一體研究 |
ADAS與自動駕駛Tier1-國外 | 雷射雷達-國外篇 | 紅外夜視 |
自動駕駛與座艙域控制器 | 毫米波雷達 | 車載語音 |
乘用車底盤域控 | 車用超音波雷達 | 人機互動 |
域控制器排名分析 | Radar拆解 | 汽車VCU研究 |
雷射和毫米波雷達排名 | 充電基礎設施 | 800V高壓平台 |
E/E架構 | 汽車電機控制器 | 燃料電池 |
汽車分時租賃 | 混合動力報告 | 一體化電池 |
共享出行及自動駕駛 | 汽車PCB研究 | 汽車OS研究 |
EV熱管理系統 | IGBT及SiC研究 | 線控底盤 |
汽車功率電子 | 汽車線束 | 滑闆底盤 |
無線通訊模組 | 合資品牌ADAS | 電控懸架 |
汽車5G融合 | 自主品牌ADAS | 轉向系統 |
合資品牌車聯網 | 農機自動駕駛 | ADAS資料年報 |
自主品牌車聯網 | 港口自動駕駛 | 汽車MCU研究 |
專用車自動駕駛 | 飛行汽車 | 傳感器晶片 |
礦山自動駕駛 | 汽車智能座艙 | 自動駕駛晶片 |
無人接駁車 | 商用車車聯網 | 自動駕駛重卡 |
無人配送車 | 座艙多屏與聯屏 | 智能座艙設計 |
無人零售車研究 | 智能汽車個性化 | 商用車ADAS |
智能座艙Tier1 | 汽車多模态互動 | 座艙SOC |
商用車智能座艙 | TSP廠商及産品 | 汽車座椅 |
儀表和中控顯示 | OTA研究 | 汽車照明 |
智能後視鏡 | AUTOSAR研究 | 汽車EDR研究 |
行車記錄儀 | 軟體定義汽車 | 子產品化報告 |
汽車數字鑰匙 | Waymo智能網聯布局 | 造車新勢力-蔚來 |
汽車UWB研究 | HUD行業研究 | 車載DMS |
汽車雲服務研究 | 自動駕駛法規 | V2X和車路協同 |
L4自動駕駛 | 自動駕駛标準和認證 | 路側智能感覺 |
L2自動駕駛 | 智能網聯測試基地 | 路側邊緣計算 |
環視市場研究(本土篇) | PBV及汽車機器人 | 汽車eCall系統 |
環視市場研究(合資篇) | 汽車功能安全 | 電裝新四化 |
乘用車T-Box | 汽車音響研究 | 電驅動與動力域研究 |
商用車T-Box | 線控制動研究 | 多域計算和區域控制器 |
T-Box排名分析 | 智慧停車研究 | 資料閉環研究 |
乘用車攝像頭季報 | 汽車資訊安全硬體 | 汽車鎂合金壓鑄 |
「佐思研究月報」
ADAS/智能汽車月報 | 汽車座艙電子月報 | 汽車視覺和汽車雷達月報 | 電池、電機、電控月報 | 車載資訊系統月報 | 乘用車ACC資料月報 | 前視資料月報 | HUD月報 | AEB月報 | APA資料月報 | LKS資料月報 | 前雷達資料月報