ChatGPT的火爆預示了自動駕駛的方向:大模型(至少超過100億個參數)和高算力(至少1000TOPS@FP16)。ChatGPT完美展示了大模型的優勢,也讓英偉達欣喜若狂,英偉達、AMD和英特爾是最大受益者(英偉達最頂級的DGX-H100中的CPU是英特爾的W3495X,國内售價高達每片8萬人民币),還有幾乎壟斷高端伺服器市場的中國台灣企業廣達和英業達,科技巨頭每年需要花費數百億乃至上千億美元購買新的伺服器來處理越來越大的AI模型,并且會持續數十年。
高算力讓存儲牆愈加明顯,存儲系統的成本也持續攀升,AI晶片價格越來越高,未來10萬美元甚至百萬美元級AI晶片也極有可能。要完美解決存儲牆問題是不可能的,折中的辦法是存算一體。這雖然無法解決晶片成本趨高的問題,但是可以解決1000TOPS算力的問題。
根據存儲與計算的距離遠近,将廣義存算一體的技術方案分為三大類,分别是近存計算 (Processing Near Memory,PNM)、存内處理(Processing ln Memory,PIM) 和存内計算(Computing in Memory, CIM)。其中,存内計算即狹義的存算一體。
存内計算面臨的最大挑戰是記憶體和高性能計算都是高度集中的行業,巨頭們出于利潤的考量,不會允許革命性的存内計算颠覆其所屬的壟斷行業。記憶體行業,美光、三星和SK Hynix在高性能存儲領域市占率達100%。高性能計算領域,英特爾、AMD和英偉達的市場占有率也接近100%。台積電和三星聯合壟斷了高性能晶片代工領域。7納米以下晶圓廠産能是最具話語權的武器,沒有這個,高性能計算便是空中樓閣。
PNM已經非常常見,即HBM與CPU一體,所有高性能計算晶片都是如此,采用HBM堆疊,2.5D封裝,矽中介層(Interposer)内聯在基闆上。也可以反推,沒有采用HBM就不是高性能計算晶片。特斯拉二代FSD已經用上了GDDR6,下一代基本可以肯定是HBM3了。
PIM則是再下一階段熱點 圖檔來源:Planet
PIM已經有商業化的執行個體,最早的執行個體是Xilinx的Alveo U280 圖檔來源:Planet
PIM可以大幅度降低存取功耗 圖檔來源:Planet
圖檔來源:三星
AMD收購Xilinx,其中最看中的就是PIM堆疊技術,AMD後來将其用在Instinct MI100/MI250/MI150/MI210系列GPU上,這也是美國商務部禁止向中國出售的晶片。MI100的性能能夠超越英偉達的上一代旗艦A100,功耗較A100降低約25%,價格也低于A100約30%。MI250與英偉達新旗艦H100持平,在FP32和FP64上,MI250更強;在FP16上,H100遠超MI250。
PIM的主角還是三星,配角是AMD,三星Aquabolt-XL HBM2-PIM是目前唯一PIM記憶體。
Aquabolt-XL HBM2-PIM架構
圖檔來源:三星
PIM非常簡單,就是用矽通孔(Through Silicon Via, TSV)技術将計算單元塞進記憶體上下BANK之間。TSV技術人類2010年就掌握了,隻不過迄今還不算特别成熟,價格還是有點高。
圖檔來源:三星
計算單元很簡單,一個FP16矩陣乘法,一個FP16矩陣加法。輸入指令解碼和行列位址即可。
PIM運作模式
圖檔來源:三星
PIM的軟體棧
圖檔來源:三星
在2023CES消費電子展上,AMD推出了MI300,PIM似乎更新到了HBM3。
圖檔來源:AMD
國人一心打破美國的科技壟斷,由于缺乏先進2.5D和3D封裝産能和技術,中國企業對PNM和PIM完全不感興趣,聚焦的是真正的存算一體,即存内計算。
其本質是利用不同存儲媒體的實體特性,對存儲電路進行重新設計使其同時具備計算和存儲能力,直接消除“存〞“算〞界限,使計算能效達到數量級提升的目标。在存儲原位上實作計算,是真正的存算一體。存算一體理論上完美,但目前離實用至少還有10年距離。
存内計算主要包含數字和模拟兩種實作方式,二者适用于不同應用場景。模拟存内計算能效高,但誤差較大,适用于低精度、低功耗計算場景,如端側可穿戴裝置等。模拟存内計算還涉及複雜的模數轉換器(ADC)、數模轉換器(DAC)、跨阻放大器(TIA) 等子產品。ADC和DAC領域需要幾十年經驗長期摸索,全球精通ADC和DAC的僅有ADI、德州儀器和NXP三家,其中ADI最強,正是牽涉大量模拟部分,存内計算無法使用EDA工具,導緻晶片開發成本高、周期長、規模小、算力低。
一直以來,主流的存内計算大多采用模拟計算實作,近兩年數字存内計算的研究熱度也有所提升。模拟存内計算主要基于實體定律(歐姆定律和基爾霍夫定律),在存算陣列上實作乘加運算。數字存内計算通過在存儲陣列内部加入邏輯計算電路,如與門和加法器等,使數字存内計算陣列具備存儲及計算能力。數字存内計算精度高,但是其存儲單元隻能存儲單比特資料,而目前主流人工智能訓練是32或64比特資料,這嚴重限制了其應用範圍,并且數字存内計算需增加加法樹邏輯電路,很大程度上限制了面積及能效優勢。也就是目前存内計算在高算力領域沒有容身之地的原因。
存内計算最重要的部分就是存儲器件本身,算法之類的軟體部分幾乎可以忽略。目前存儲器主要有易失性存儲器和非易失存儲器件。易失性存儲器在裝置掉電之後資料丢失,如SRAM等。非易失性存儲器在裝置掉電後資料可保持不變,如NOR Flash、可變電阻随機存儲器 (Resistive Random Access Memory, RRAM或ReRAM)、磁性随機存儲器(Magnetoresistive Random Access Memory, MRAM)、相變存儲器 (Phase Change Memory, PCM)等。中國企業或機構主要研究的是鐵電半導體FeFET。傳統的SRAM、DRAM、NAND被三星、美光和SK Hynix壟斷,是以基于傳統存儲的存内計算無論如何都無法對抗這三大巨頭,大部分機構或企業都選擇另辟蹊徑。
幾種新興存儲器的技術對比
需要指出,目前存儲器制造也需要EUV光刻機了,而EUV光刻機被ASML壟斷,又聽命于美國政府。通常認為,DRAM的天花闆是10nm。其原因是在傳統1T1C架構下,機關元件面積不斷減小,如何保證電容能夠存儲足夠的電荷、防止相鄰存儲單元之間的耦合,是DRAM推進到10nm以下的無解難題,而EUV是用來做7nm以下的,DRAM目前主流是14納米。14納米理論上完全可以用DUV來完成,不需要EUV。
但實際情況并非如此,三星電子的1Znm節點DRAM量産結果表明,相比于DUV浸沒式光學光刻機,EUV光刻機極大簡化了制造流程,不僅可以大幅度提高光刻分辨率和DRAM性能,而且可以減少所使用的掩模數量,進而減少流程步驟的數量,減少缺陷、提高存儲密度,并大幅降低DRAM生産成本,縮短生産周期。也就是說,即使EUV掩模費用(達數百萬美元)遠高于DUV掩模費用,使用EUV光刻機量産DRAM也具有更高的成本效益。三星電子和SK海力士公司将EUV光刻機引入1Znm節點DRAM的量産進展順利,并一路高歌到第五代1β節點,令DRAM三巨頭中最為保守的美光公司很無奈。美光一度宣稱自己用DUV也做到了11納米,然而進入2023年後的DDR5時代,南韓雙雄再一次依靠EUV光刻機碾壓了美光。美光在DDR5方面嚴重落後南韓雙雄。
全球智能汽車領域,特斯拉是第一個用上GDDR6的企業,特斯拉也很可能第一個用上HBM2或HBM3,當然代價是晶片成本超過1000美元以上,不過以特斯拉的溢價能力,消費者願意為高價買單。要想超越特斯拉,不如一步到位,直接上HBM3。當然了,對中國企業來說最困難的不是技術,而是供應鍊,晶圓級2.5D封裝HBM的産能95%都在台積電手中,5%在三星手中。
聲明:本文僅代表作者個人觀點。
更多佐思報告
報告訂購及合作咨詢私信小編。
佐思2023年研究報告撰寫計劃
智能網聯汽車産業鍊全景圖(2023年2月版)
自主品牌主機廠自動駕駛 | 汽車視覺(國内) | 高精度地圖 |
合資品牌主機廠自動駕駛 | 汽車視覺(國外) | 高精度定位 |
ADAS與自動駕駛Tier1-國内 | 汽車視覺算法 | 汽車網關 |
ADAS與自動駕駛Tier1-國外 | 環視市場研究(本土篇) | 資料閉環研究 |
ADAS域控制器關鍵元件 | 環視市場研究(合資篇) | 汽車資訊安全硬體 |
自動駕駛與座艙域控制器 | 紅外夜視 | 汽車資訊安全軟體 |
多域計算和區域控制器 | 自動駕駛仿真(國外) | OEM資訊安全 |
乘用車底盤域控 | 自動駕駛仿真(國内) | 無線通訊模組 |
域控制器排名分析 | 雷射雷達-國内篇 | 汽車5G融合 |
E/E架構 | 雷射雷達-國外篇 | 800V高壓平台 |
L4自動駕駛 | 雷射雷達核心部件 | 燃料電池 |
L2/L2+自動駕駛 | 毫米波雷達 | 一體化電池 |
乘用車攝像頭季報 | 車用超音波雷達 | 一體化壓鑄 |
ADAS資料年報 | Radar拆解 | 汽車作業系統 |
合資品牌車聯網 | 雷射和毫米波雷達排名 | 線控底盤 |
車載資訊服務系統及娛樂生态 | 專用車自動駕駛 | 滑闆底盤 |
自動駕駛重卡 | 礦山自動駕駛 | 電控懸架 |
商用車ADAS | 無人接駁車 | 轉向系統 |
商用車智能座艙 | 無人配送車 | 線控制動研究 |
商用車車聯網 | 無人零售車研究 | 充換電基礎設施 |
商用車智能底盤 | 農機自動駕駛 | 汽車電機控制器 |
汽車智能座艙 | 港口自動駕駛 | 混合動力報告 |
智能座艙Tier1 | 子產品化報告 | 汽車PCB研究 |
座艙多屏與聯屏 | V2X和車路協同 | IGBT及SiC研究 |
智能座艙設計 | 路側智能感覺 | EV熱管理系統 |
儀表和中控顯示 | 路側邊緣計算 | 汽車功率電子 |
智能後視鏡 | 汽車eCall系統 | 電驅動與動力域 |
行車記錄儀 | 汽車EDR研究 | 汽車線束 |
汽車數字鑰匙 | 智能汽車個性化 | 汽車音響 |
汽車UWB研究 | 汽車多模态互動 | 汽車座椅 |
HUD行業研究 | 車載語音 | 汽車照明 |
人機互動 | 車載天線 | 汽車鎂合金壓鑄 |
車載DMS | TSP廠商及産品 | 電裝新四化 |
OTA研究 | 自動駕駛法規 | 造車新勢力-蔚來 |
汽車雲服務研究 | 自動駕駛标準和認證 | 蔚來ET5/ET7智能化功能拆解 |
汽車功能安全 | 智能網聯測試基地 | 造車新勢力-小鵬 |
AUTOSAR研究 | PBV及汽車機器人 | 小鵬G9功能拆解 |
軟體定義汽車 | 飛行汽車 | 造車新勢力-理想 |
軟體供應商 | 行泊一體研究 | 理想L8/L9功能拆解 |
乘用車T-Box | 智慧停車研究 | 自動駕駛晶片 |
商用車T-Box | 汽車分時租賃 | 座艙SOC |
T-Box排名分析 | 共享出行及自動駕駛 | 汽車VCU研究 |
車型供應商調研 | 車企數字化轉型 | 汽車MCU研究 |
大疆前視雙目與圖達通雷射雷達拆解 | 自動駕駛融合算法 | 傳感器晶片 |
蔚來豐田長城車機和座艙域控拆解 | AI大模型及自動駕駛智算中心 | 車載存儲晶片 |
智能表面 | 汽車CIS研究 | 電源管理晶片 |
「佐思研究月報」
ADAS/智能汽車月報 | 汽車座艙電子月報 | 汽車視覺和汽車雷達月報 | 電池、電機、電控月報 | 車載資訊系統月報 | 乘用車ACC資料月報 | 前視資料月報 | HUD月報 | AEB月報 | APA資料月報 | LKS資料月報 | 前雷達資料月報