天天看點

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

作者:子彈财經
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

「子彈财經」經授權釋出

作者 | 孫越

來源 | 偲睿洞察

美編 | 倩倩

稽核 | 頌文

從2022.11.30的ChatGPT,到2023.6.13的360智腦大模型2.0,全球AI界已為大模型持續瘋狂了七個多月。ChatGPT們正如雨後春筍般湧現,向AI市場投放一個個“炸彈”:辦公、醫療、教育、制造,亟需AI的賦能。

而AI應用千千萬,把大模型打造好才是硬道理。

對于大模型“世界”來說,算法是“生産關系”,是處理資料資訊的規則與方式;算力是“生産力”,能夠提高資料處理、算法訓練的速度與規模;資料是“生産資料”,高品質的資料是驅動算法持續疊代的養分。在這之中,算力是讓大模型轉動的前提。

我們都知道的是,大模型正對算力提出史無前例的要求,具體的表現是:據英偉達資料顯示,在沒有以Transformer模型為基礎架構的大模型之前,算力需求大緻是每兩年提升8倍;而自利用Transformer模型後,算力需求大緻是每兩年提升275倍。基于此,530B參數量的Megatron-Turing NLG模型,将要吞噬超10億FLOPS的算力。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(AI不同模型算法算力疊代情況 圖 / 格隆彙)

作為大模型的大腦——AI晶片,是支撐ChatGPT們高效生産及應用落地的基本前提。保證算力的高效、充足供應,是目前AI大算力晶片廠商亟需解決的問題。

GPT-4等大模型向晶片廠商獅子大開口的同時,也為晶片廠商尤其是初創晶片廠商,帶來一個利好消息:軟體生态重要性正在下降。

早先技術不夠成熟之時,研究者們隻能從解決某個特定問題起步,參數量低于百萬的小模型由此誕生。例如谷歌旗下的AI公司DeepMind,讓AlphaGO對上百萬種人類專業選手的下棋步驟進行專項“學習”。

而小模型多了之後,硬體例如晶片的适配問題迫在眉睫。故,當英偉達推出統一生态CUDA之後,GPU+CUDA迅速博得計算機科學界認可,成為人工智能開發的标準配置。

現如今紛紛湧現的大模型具備多模态能力,能夠處理文本、圖檔、程式設計等問題,也能夠覆寫辦公、教育、醫療等多個垂直領域。這也就意味着,适應主流生态并非唯一的選擇:在大模型對晶片需求量暴漲之時,晶片廠商或許可以隻适配1-2個大模型,便能完成以往多個小模型的訂單。

也就是說,ChatGPT的出現,為初創晶片廠商們提供了彎道超車的機會。這就意味着,AI晶片市場格局将發生巨變:不再是個别廠商的獨角戲,而是多個創新者的群戲。

本報告将梳理AI晶片行業發展概況、玩家情況,總結出大算力時代,玩家提高算力的路徑,并基于此,窺探AI大算力晶片的發展趨勢。

1、國産AI晶片,正走向AI3.0時代

現階段的AI晶片,根據技術架構種類來分,主要包括GPGPU、FPGA、以VPU、TPU為代表的ASIC、存算一體晶片。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

根據其在網絡中的位置,AI晶片可以分為雲端AI晶片、邊緣和終端AI晶片;

雲端主要部署高算力的AI訓練晶片和推理晶片,承擔訓練和推理任務,例如智能資料分析、模型訓練任務等;

邊緣和終端主要部署推理晶片,承擔推理任務,需要獨立完成資料收集、環境感覺、人機互動及部分推理決策控制任務。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

根據其在實踐中的目标,可分為訓練晶片和推理晶片:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

縱觀AI晶片在國内的發展史,AI晶片國産化程序大緻分為三個時代。

1.0時代,是屬于ASIC架構的時代

自2000年網際網路浪潮拉開AI晶片的序幕後,2010年前後,資料、算法、算力和應用場景四大因素的逐漸成熟,正式引發AI産業的爆發式增長。申威、沸騰、兆芯、龍芯、魂芯以及雲端AI晶片相繼問世,标志着國産AI晶片正式啟航。

2016年5月,當谷歌揭曉AlphaGo背後的功臣是TPU時,ASIC随即成為“當紅辣子雞”。于是在2018年,國内寒武紀、地平線等國内廠商陸續跟上腳步,針對雲端AI應用推出ASIC架構晶片,開啟國産AI晶片1.0時代。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

ASIC晶片,能夠在某一特定場景、算法較固定的情況下,實作更優性能和更低功耗,基于此,滿足了企業對極緻算力和能效的追求。

是以當時的廠商們,多以捆綁合作為主:大多晶片廠商尋找大客戶們實作“專用場景”落地,而有着綜合生态的大廠選擇單打獨鬥。

地平線、耐能科技等AI晶片廠商,分别專注AI晶片的細分領域,采用“大客戶捆綁”模式進入大客戶供應鍊。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

在中廠們綁定大客戶協同發展之際,自有生态的大廠阿裡成立獨資晶片公司平頭哥,着眼AI和量子計算。

2019年,平頭哥釋出的第一款AI晶片含光800,便是基于ASIC架構打造,用于雲端推理。據阿裡介紹,1顆含光800的算力相當于10顆GPU,含光800推理性能達到78563 IPS,能效比500 IPS/W。相比傳統GPU算力,成本效益提升100%。

在1.0時代,剛出世的國内晶片廠商們選擇綁定大客戶,有綜合生态的大廠選擇向内自研,共同踏上探索AI晶片算力的征途。

2.0時代,更具通用性的GPGPU“引領風騷”

盡管ASIC有着極緻的算力和能效,但也存在着應用場景局限、依賴自建生态、客戶遷移難度大、學習曲線較長等問題。

于是,通用性更強的GPGPU(通用圖形處理器)在不斷疊代和發展中成為AI計算領域的最新發展方向,當上AI晶片2.0時代的指路人。

自2020年起,以英偉達為代表的GPGPU架構開始有着不錯的性能表現。通過對比英偉達近三代旗艦産品發現,從FP16 tensor算力來看,性能實作逐代翻倍的同時,算力成本在下降。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

于是,國内多個廠商紛紛布局GPGPU晶片,主打CUDA相容,試探着AI算力晶片的極限。2020年起,珠海芯動力、壁仞科技、沐曦、登臨科技、天數智芯、瀚博半導體等新勢力集結發力,大家一緻的動作是:自研架構,追随主流生态,切入邊緣側場景。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

在前兩個時代中,國産AI晶片廠商都在竭力順應時代潮流,前赴後繼地跟随國際大廠的步伐,通過研發最新晶片解決AI算力晶片的挑戰。

我們能看到的變化是,在2.0時代中,國産AI晶片廠商自主意識覺醒,嘗試着自研架構以求突破。

3.0時代,存算一體晶片或成GPT-4等大模型的最優選

ASIC晶片的弱通用性難以應對下遊層出不窮的應用,GPGPU受制于高功耗與低算力使用率,而大模型又對算力提出前所未有的高要求:目前,大模型所需的大算力起碼是1000TOPS及以上。

以2020年釋出的GPT-3預訓練語言模型為例,其采用的是2020年最先進的英偉達A100 GPU,算力是624TOPS。2023年,随着模型預訓練階段模型疊代,又新增通路階段井噴的需求,未來模型對于晶片算力的需求起碼要破千。

再例如自動駕駛領域,根據财通證券研究所表明,自動駕駛所需單個晶片的算力未來起碼要1000+TOPS:2021年4月,英偉達就已經釋出了算力為1000TOPS的DRIVE Atlan晶片;到了今年,英偉達直接推出晶片Thor,達到2000TOPS。

由此,業界亟需新架構、新工藝、新材料、新封裝,突破算力天花闆。除此之外,日漸緊張的地緣關系,無疑又給高度依賴先進制程工藝的AI大算力晶片廠商們提出新的挑戰。

在這些大背景下,從2017年到2021年間集中成立的一批初創公司,選擇跳脫傳統馮·諾依曼架構,布局存算一體等新興技術,中國AI晶片3.0時代,正式拉開帷幕。

目前存算一體,正在上升期:

學界,ISSCC上存算/近存算相關的文章數量迅速增加:從20年的6篇上漲到23年的19篇;其中數字存内計算,從21年被首次提出後,22年迅速增加到4篇。

産界,巨頭紛紛布局存算一體,國内陸陸續續也有近十幾家初創公司押注該架構:

在特斯拉2023 Investor Day預告片末尾,特斯拉的dojo超算中心和存算一體晶片相繼亮相;在更早之前,三星、阿裡達摩院包括AMD也早早布局并推出相關産品:阿裡達摩院表示,相比傳統CPU計算系統,存算一體晶片的性能提升10倍以上,能效提升超過300倍;三星表示,與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

目前,國内的億鑄科技、知存科技、蘋芯科技、九天睿芯等十餘家初創公司采用存算一體架構投注于AI算力,其中億鑄科技、千芯科技偏向資料中心等大算力場景。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

現階段,業内人士表示,存算一體将有望成為繼CPU、GPU架構之後的第三種算力架構。

該提法的底氣在于,存算一體理論上擁有高能效比優勢,又能繞過先進制程封鎖,兼顧更強通用性與更高成本效益,算力發展空間巨大。

在此基礎上,新型存儲器能夠助力存算一體更好地實作以上優勢。目前可用于存算一體的成熟存儲器有NOR FLASH、SRAM、DRAM、RRAM、MRAM等。相比之下,RRAM具備低功耗、高計算精度、高能效比和制造相容CMOS工藝等優勢:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

目前,新型存儲器RRAM技術已然落地:2022上半年,國内創業公司昕原半導體宣布,大陸首條RRAM 12寸中試生産線正式完成裝機驗收,并在工控領域達成量産商用。據昕原半導體CTO仇聖棻博士介紹,昕原RRAM産品的良率已經超過93%。

随着新型存儲器件走向量産,存算一體AI晶片已經挺進AI大算力晶片落地競賽。

而無論是傳統計算晶片,還是存算一體晶片,在實際加速AI計算時往往還需處理大量的邏輯計算、視訊編解碼等非AI加速計算領域的計算任務。随着多模态成為大模型時代的大勢所趨,AI晶片未來需處理文本、語音、圖像、視訊等多類資料。

對此,初創公司億鑄科技首個提出存算一體超異構AI大算力技術路徑。億鑄的暢想是,若能把新型憶阻器技術(RRAM)、存算一體架構、芯粒技術(Chiplet)、3D封裝等技術結合,将會實作更大的有效算力、放置更多的參數、實作更高的能效比、更好的軟體相容性、進而擡高AI大算力晶片的發展天花闆。

站在3.0時代門口,國産AI大算力晶片廠商自主意識爆發,以期為中國AI大算力晶片提供彎道超車的可能。

AI晶片市場的發展動力,大抵來源于以下幾個因素。

中央與地方政府正為提供充足算力而奔波

2023年2月,中央政府釋出多個相關報告與布局規劃,強調東數西算中算力的調動,目前已落下一子:東數西算一體化服務平台。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

地方政府層面,例如成都在2023年1月,釋出“算力券”,即将政府算力資源與算力中介服務機構、科技型中小微企業和創客、科研機構、高校等共享,有效提高算力使用率;北京在2023年3月,釋出加快落實算力的相關意見,加快計算中心、算力中心、工業網際網路、物聯網等基礎設施建設。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

基于國家與地方政府相關政策指引,AI廠商們紛紛建立起超算/智算中心,較于以往不同的是,今年算力的首個市場化運作模式誕生,智算中心算力的規模也實作質的飛躍:據國家資訊中心與相關部門聯合釋出的《智能計算中心創新發展指南》顯示,目前全國有超過30個城市正在建設或提出建設智算中心。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

AI晶片産業布局規劃持續落地

可以看到,關于AI晶片政策已從“十三五”的規劃階段,來到“十四五”的落地階段:提高AI晶片研發技術,推廣AI應用。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

同時,各地明确提出,要加強AI晶片産業布局。在這之中,浙江、廣東、江蘇等省份均提出了至2025年,人工智能晶片領域的具體發展方向。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

存算一體正成為地方算力産業新機遇

存算一體,正成為深圳算力産業鍊創新發展的新機遇,并在積極落地之中。

2023年4月2日,在第二屆中國産業鍊創新發展峰會新一代資訊技術産業發展論壇上,北京大學深研院資訊工程學院副院長楊玉超表示,深圳将立足于相對完善的産業鍊叢集,從先進工藝與封裝、創新電路與架構、EDA工具鍊、軟體與算法生态這四個方面解決存算一體在産業化應用上的挑戰。

今年4月,中國大模型正式爆發,未來,對于AI大算力晶片的需求隻增不減。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

現有的大模型,正向着英偉達A100大算力晶片獅子大開口:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

故例如商湯等AI廠商,正把眼光放置在國産AI大算力晶片上:2023年4月10日商湯披露,目前商湯所用的國産化AI晶片占比達到總體的10%。這無疑,将加速國内AI晶片廠商的成長。

英偉達表示,未來将從GPU架構出發,走向“GPU+DPU的超異構”:推出NVLink-C2C、支援UCLe+芯粒+3D封裝;推出Thor“超異構”晶片2000T;

AMD表示,未來硬體創新突破更難,将走向“系統級創新”,即從整體設計的上下遊多個環節協同設計來完成性能的提升。

千億美元的AI晶片市場,2023火得滾燙

整體人工智能産業鍊,基本分為基礎層、技術層和應用層三個層面:

基礎層包括AI晶片、智能傳感器、雲計算等;技術層包括機器學習、計算機視覺、自然語言處理等;應用層包括機器人、無人機、智慧醫療、智慧交通、智慧金融、智能家居、智慧教育、智慧安防等。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

基礎層作為人工智能行業發展的基礎,為人工智能提供資料和算力支撐,其中,AI晶片是人工智能算力的基礎。

在AI産業尚未成熟之時,基礎層企業目前價值量最大,中國人工智能産業鍊中,基礎層企業比例達到83%,技術層企業比例為5%,應用層企業比例為12%。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

基礎層決定大樓是否穩固,而下遊的應用層面決定大樓高度。在應用層,智能機器人、無人機等智慧終端潛力無限,智慧城市、智慧醫療等領域,更是有不少金子能挖。目前,大陸智能機器人市場規模持續快速增長。

資料顯示,2017-2021年大陸智能機器人市場規模從448億元增長至994億元,期内年均複合增長率達22.05%,預計2023年其市場規模将達1300億元。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

據中國信通院資料統計,中國智慧城市市場規模近幾年均保持30%以上增長,2021年市場規模達21.1萬億元,預計2023年其市場規模将達28.6萬億元。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

千億美元市場,AI晶片魅力無限

在全球數字化、智能化的浪潮下,技術層的技術正不斷疊代:自動駕駛、影像辨識、運算等技術正在各領域深化應用;與此同時,應用層的物聯網裝置正不斷豐富:工業機器人、AGV/AMR、智能型手機、智能音箱、智能攝影機等。

這無疑,會推動基礎層的AI晶片與技術市場迅速成長。根據灼識咨詢資料,2022年全球AI晶片市場規模達到960億美元,預計2027年達到3089億美元,2022年至2027年的複合年增長率為23%:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

國内的AI晶片市場,更為火熱:根據灼識咨詢資料,2022年中國AI市場規模達到319億美元,預計于2027年将達到1150億美元,2022年至2027年的複合年增長率為29.2%。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

2021,AI晶片賽道迎來風口

随着下遊安防、汽車等市場需求量增大,再加上2019年以來,美國持續制裁國内廠商的動作,2021年,國内AI晶片賽道迎來風口。在這一年裡,資本們競相挑選屬于中國AI晶片市場的“潛力狗”,以期掌握未來晶片市場的話語權。盡管2022年投資熱度有所回落,但總體金額仍超百億元。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(2016-2023年中國人工智能晶片行業融資整體情況 圖 / 前瞻經濟學人APP)

C輪後的融資較少,AI晶片市場仍處于萌芽期

通過分析投資輪次發現,AI晶片市場仍處于萌芽期:目前人工智能晶片行業的融資輪次仍處于早期階段,C輪後的融資數量較少。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(2016-2023年中國人工智能晶片行業投融資輪次情況 圖 / 前瞻經濟學人APP)

存算一體成為香饽饽

細分賽道來看,GPU是價值量最高的賽道,摩爾線程等GPU玩家融資超10億,榮獲“MVP”;

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

而存算一體賽道融資公司數量最多,億鑄科技、知存科技等七家存算一體玩家,備受資本青睐。值得注意的是,存算一體賽道下的四家初創公司億鑄科技、知存科技、蘋芯科技、後摩智能,已連續兩年獲得融資。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

國内AI大算力賽道,玩家幾何?

目前,寒武紀、平頭哥等1.0時代玩家,現已成為優質AI算力晶片上市公司;2.0時代湧現的非上市AI算力晶片公司如壁仞科技、登臨科技、天數智芯等在産品端持續發力;3.0時代,千芯科技、億鑄科技等初創公司正在存算一體這一架構上尋求突破。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

經偲睿洞察整理發現,目前,多數AI晶片公司布局邊緣側、中心側偏小算力場景,例如智慧安防、智慧城市、智慧醫療等應用場景;壁仞科技、平頭哥、億鑄科技能夠覆寫邊緣側、中心側偏大算力場景;在新一批初創企業中,億鑄科技做出大膽的嘗試,試圖用存算一體架構去做大算力場景。

故,我們按照架構以及應用場景分類,呈現出以下AI算力晶片中遊廠商全景圖:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

ChatGPT火爆來襲,引發AI産業巨浪,國産AI晶片正迎來3.0時代。在大模型催生的3.0時代,亟需AI大算力晶片提供充足算力,讓日益沉重的大模型快速滾動起來。

2、大模型盛行,晶片廠商如何解決大算力難題?

算力,即國力

伴随“元宇宙”時代開啟,GPT-4等大模型來勢洶洶,資料流量将迎來爆發增長。據IDC預測資料,預估未來五年,全球算力規模将以超過50%的速度增長,到2025年整體規模将達到3300EFlops。而2025年全球物聯網裝置數将超過400億台,産生資料量接近80ZB,且超過一半的資料需要依賴終端或者邊緣的計算能力進行處理。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(全球算力需求未來增長情況 圖 / 中國銀河證券研究院)

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(全球算力增長速度明顯落後于資料量增長 圖 / 中國銀河證券研究院)

資料量暴增,各國急需算力維系資料的正常運轉,各國之間的算力之争,正式打響。而事實上遠不止算力之争這麼簡單,這背後,是各國國力的角逐。

2022年3月,由IDC、浪潮資訊、清華大學全球産業研究院聯合編制的《2021-2022全球計算力指數評估報告》,揭示了現如今“算力與國力”的基本關系:

全球各國算力規模與經濟發展水準顯著正相關,算力規模越大,經濟發展水準越高。計算力指數平均每提高1點,數字經濟和GDP将分别增長3.5‰和1.8‰;美國和中國的計算力指數分别為77分和70分,明顯領先其他國家的計算力指數。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

場景衆多,不同的算力場景,對晶片的要求不同

小至耳機、手機、PC,大到汽車、網際網路、人工智能(AI)、資料中心、超級計算機、航天火箭等,“算力”都在其中發揮着基礎核心作用。而不同的算力場景,對晶片的要求不同:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

可以看到,資料中心由于其算法多樣、疊代速度更快等特性,對晶片的要求尤其高:既要其高算力、又要其低功耗、低成本、高可靠性,還要其具備更高的通用性。

資料中心建設,迫在眉睫

在衆多應用場景之中,資料中心尤為重要。作為AI基礎設施,資料中心承載着多個中心側與邊緣側算力的應用:

1、國家資料中心叢集支撐工業網際網路、金融證券、災害預警、遠端醫療、視訊通話、人工智能推理。

2、城市内的資料中心作為算力“邊緣”端,服務金融市場高頻交易、VR/AR、超高清視訊、車聯網、聯網無人機、智慧電力、智能工廠、智能安防等。

現如今,算力、甚至是國力之争,已然拉開序幕。

美國對中國資料中心、智算中心、超算中心的制裁自2021年就已開始:2021年4月,美國商務部對中國國家超級計算濟南中心、深圳中心、無錫中心、鄭州中心等中國超算實體列入“實體清單”。

基于下遊市場的需求增長,地緣政治等因素,大陸資料中心也快速提上日程:2021年5月,國家提出“東數西算”工程,明确圍繞8個國家算力樞紐,推進國家資料中心叢集以及城市内部資料中心建設。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

現如今,中國資料中心建設較于美國仍有一定差距:

《2021-2022全球計算力指數評估報告》指出,目前世界上大約有600個超大規模的資料中心,每個都擁有超過5000台伺服器,其中約39%在美國,是中國的4倍,而中國、日本、英國、德國和澳洲的伺服器數量總和約占總數的30%。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

截至2021年底,大陸在用資料中心機架總規模達520萬标準機架,在用資料中心伺服器規模1900萬台,算力總規模超過140EFLOPS。

在算力即國力的大背景下,大模型的催化下,低成本、低功耗的大算力一定會成為剛需。中國,亟需能夠承載算力的自主可控的資料中心,而資料中心的算力,依賴着晶片的國産替代進度。

資料中心場景下,國産主流AI晶片,仍有差距

在資料中心這一基礎設施中,伺服器占據69%。現如今,在資料中心加速伺服器市場,GPGPU憑借着更高性能、更高通用性占主導地位:

根據IDC資料,2021年,GPU/GPGPU伺服器以91.9%的份額占大陸加速伺服器市場的主導地位;而前面我們提到過的ASIC、FPGA等非GPU加速伺服器僅占比8.1%。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

而現階段,在雲端資料中心場景下,國産GPGPU晶片較于國際頂尖水準,仍有差距。

在進行對比之前,我們需要明确的是,在雲端(伺服器端),對于訓練晶片、推理晶片的要求不全然相同:

訓練晶片需通過海量資料訓練出複雜的神經網絡模型,使其适應特定的功能,相應地,對性能和精度有較高的要求,并需具備一定的通用性;

推理晶片則是利用神經網絡模型進行推理預測,對峰值計算性能要求較低,則更加注重機關能耗算力、時延、成本等綜合名額。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

AI訓練晶片,國産仍有差距

目前,壁仞科技、平頭哥、昆侖芯、沐曦、天數智芯等玩家對于雲端資料中心皆有布局,其中,昆侖芯、平頭哥等大多廠商推出推理晶片;寒武紀、沐曦、天數智芯則推出訓推一體晶片。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

近年來,國内廠商訓練晶片産品硬體性能不斷取得突破,但與市場主流英偉達A100産品仍存在一定差距:

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

以燧原雲邃T20産品為例,其32位單精度浮點性能達32TFLOPS,高于A100的19.5TFLOPS,且在功耗上更具優勢,但記憶體寬帶不足A100的1/3,在應對機器學習和深度學習的帶寬需求上仍有差距。

同時據浙商證券分析,寒武紀去年年底推出的思元590系列可能在部分模型上由于其ASIC專用性表現出更優異的性能,但由于其通用性不足,仍需要後期适配和技術支援。對比之下,中國AI訓練晶片仍與英偉達在性能、生态(相容)有一定差距。

AI推理晶片,國産有望追平

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

目前,寒武紀、燧原、昆侖芯等國内廠商産品已具備與市場主流的Tesla T4正面競争能力:其能效比為1.71TOPS/W,與T4的1.86TOPS/W差距較小。

算力優化路徑

差距猶在,國産AI廠商亟需趕上國際速度。大家提升晶片性能的第一步,都是卷先進制程。

現階段,先進制程晶片設計成本高昂:機關面積成本在14/16nm後陡增。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(先進制程晶片的機關面積成本增加 圖 / 天風證券)

1、根據奇異摩爾資料,随着制程從28nm制程演變到5nm,研發投入也從5130萬美元劇增至5.42億美元,2nm的開發費用接近20億美元,先進制程已然成了全球巨頭的燒錢競賽。

2、根據EETOP公衆号資料,在7nm節點,設計一款晶片的費用高達3億美元。且伴随摩爾定律不斷放緩,半導體同時逼近實體極限、成本極限。

由此,晶片上遊企業也在瘋狂漲價:供貨商台積電的先進制程晶圓價格每年都在漲,越漲越離譜。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

3、先前還是分制程漲價:2021年,台積電在8月25日中午通知客戶全面漲價,即日起7nm及5nm先進制程将漲價7%至9%,其餘的成熟制程漲價約20%;

4、而在2023年初,台積電全線大幅度漲價:根據《電子時報》報道,台積電12英寸5nm晶圓價格高達1.6萬美元/片,較上一代7nm晶圓漲價60%。

成本上漲将成為常态,更令人遺憾的是,在國内廠商已經把制程卷到7nm的情況下,性能也并沒有趕超英偉達。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

若是卷到5nm以達到更高的性能,晶片廠商得不償失:

首先是成本難以負擔,英偉達在GPGPU的護城河,是靠着錢砸出來的。據英偉達黃仁勳表示,光是A100晶片的研發成本,就是20-30億美元(百億元級别)以及4年時光。短期之内,國内初創企業沒有如此大的體量,也付不起時間成本。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

目前,高昂的研發成本已讓寒武紀等廠商,仍未盈利。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

其次是錢花了,沒效果:性能并非保持“正增長”。邏輯晶片依然沿着摩爾定律向前演進,存儲晶片繼續縮減尺寸已不再具備成本和性能方面的優勢,模拟晶片制程的縮小反而可能導緻模拟電路性能的降低。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

同時,長期來看,7nm晶片比5nm成本效益更高:

美國喬治城大學釋出了一份AI晶片研究報告,其中對采用不同工藝節點的AI晶片進行經濟效益分析。該報告通過量化模型揭示出,相比5nm工藝節點,7nm工藝晶片的成本收益更優。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

研究人員從該成本分析模型,得出兩個結論:

1、在正常營運兩年内,先進工藝(7/5nm)晶片的能耗成本就超過了其生産成本,采用舊工藝的晶片(10nm及以上)能耗成本增長更快。若綜合考慮生産成本和營運成本,先進工藝晶片的成本效益是舊工藝晶片的33倍。

2、對比7nm和5nm晶片,當正常營運使用8.8年時,二者的成本相當。這意味着,如果在8.8年以内更換晶片,7nm更劃算。鑒于資料中心AI訓練和推理所用的AI加速器大都是3年更換一次,單從成本效益來看7nm晶片比5nm更劃算。

除此之外,還有着地緣政治影響,國内的先進制程研發屢屢受阻。晶片苦于先進制程久矣,而提升晶片算力,絕非隻是提升單晶片的性能,而是要考慮晶片的宏觀總算力。

宏觀總算力=性能*數量(規模)*使用率,而目前在CPU、GPU、AI等大算力晶片身上,我們能看到的是,很多方案不能兼顧這三大因素:

1、有的算力晶片,可以做到性能狂飙,但較少考慮晶片的通用性易用性,導緻晶片銷量不高、落地規模小。例如通過FPGA定制,便是規模太小,成本和功耗太高。

2、有的算力提升方案,重在規模投入,但解決不了未來算力需求數量級提升的根本。

3、有的解決方案,通過各種資源池化和跨不同的邊界算力共享,來提升算力使用率,但改變不了目前算力晶片性能瓶頸的本質。

而想要達到大算力,需要兼顧性能、規模、使用率三大影響因子的、具備大局觀的方案。

算力解決方案,蓄勢待發

以AI雲端推理卡為例,我們能看到的是,2018-2023年,算力由于工藝制程“卷不動”等種種原因,成本、功耗、算力難以兼顧。

但國力之争已然打響,ChatGPT已然到來,市場亟需兼顧成本、功耗、算力的方案。

目前國際大廠、國内主流廠商、初創企業都在謀求計算架構創新,試圖找出兼顧性能、規模、使用率的方案,突破算力天花闆。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

對于架構創新,業内給出不少技術及方案:量子計算(量子晶片)、光子晶片、存算一體、芯粒(Chiplet)、3D封裝、HBM······

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

在這之中,現在能夠相容CMOS工藝又能盡快量産的,有HBM、芯粒、3D封裝、存算一體。而存算一體、芯粒(Chiplet)是目前業内普遍認為,能夠突破AI算力困境,進行架構創新的兩條清晰路線。

用存算一體消除資料隔閡

從傳統馮·諾依曼架構到存算一體架構,通俗來講,就是消除資料與資料的隔閡,讓其更高效地工作。

在傳統馮·諾伊曼架構之下,晶片的存儲、計算區域是分離的。計算時,資料需要在兩個區域之間來回搬運,而随着神經網絡模型層數、規模以及資料處理量的不斷增長,資料已經面臨“跑不過來”的境況,成為高效能計算性能和功耗的瓶頸,也就是業内俗稱的“存儲牆”。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(存儲牆限制具體表現 圖 / 浙商證券)

存儲牆相應地也帶來了能耗牆、編譯牆(生态牆)的問題。例如編譯牆問題,是由于大量的資料搬運容易發生擁塞,編譯器無法在靜态可預測的情況下對算子、函數、程式或者網絡做整體的優化,隻能手動、一個個或者一層層對程式進行優化,耗費了大量時間。

這“三堵牆”會導緻算力無謂浪費:據統計,在大算力的AI應用中,資料搬運操作消耗90%的時間和功耗,資料搬運的功耗是運算的650倍。

而存算一體能夠将存儲和計算融合,徹底消除了訪存延遲,并極大降低了功耗。基于此,浙商證券報告指出,存算一體的優勢包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超過10-100TOPS/W)、降本增效(可超過一個數量級)······

如下圖所示,相較于GPGPU,存算一體晶片能夠實作更低能耗、更高能效比,在應用落地方面能夠助力資料中心降本增效,賦能綠色算力。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

基于此,若是處理一天的咨詢量,存算一體晶片在初始投入上,是A100的13%-26%,在每日電費上,是A100的12%。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

用Chiplet賦予晶片更多能力

除了打破資料之間的牆,晶片設計廠商試圖賦予晶片更多的能力:把任務分發給不同架構的硬體計算單元(比如CPU、GPU、FPGA),讓他們各司其職,同步工作,提高效率。

回顧計算機發展史,AI晶片處理器從單核—多核,計算從串行—并行,從同構并行到異構并行。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

當摩爾定律還是行業的鐵律,也就是第一階段時,計算機程式設計幾乎一直都是串行的。絕大多數的程式隻存在一個程序或線程。

此時,性能依賴于硬體工藝。而2003年以後,因為工藝達到了瓶頸,光是靠硬體提升行不通了。随後,即便迎來了同構計算(疊加多個核,強行提升算力),但總體的天花闆仍然存在。

異構并行計算的到來,開辟了新的技術變革:把任務分發給不同架構的硬體計算單元(比如說CPU、GPU、FPGA),讓他們各司其職,同步工作,提高效率。

異構的好處,從軟體的角度來講,異構并行計算架構能夠讓軟體開發者高效地開發異構并行的程式,充分使用計算平台資源。

從硬體角度來講,一方面,多種不同類型的計算單元通過更多時鐘頻率和核心數量提高計算能力;另一方面,各種計算單元通過技術優化提高執行效率。

在這之中,Chiplet是關鍵技術。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

在目前技術進展下,Chiplet方案能夠實作晶片設計複雜度及設計成本降低。IC設計階段将SoC按照不同功能子產品分解為多個芯粒,部分芯粒實作子產品化設計并在不同晶片中重複使用,能夠實作設計難度降低,且有利于後續産品疊代,加速産品上市周期。

用HBM技術拓寬“資料通道”

由于半導體産業的發展和需求的差異,處理器和存儲器二者之間走向了不同的工藝路線,這也就意味着,處理器與存儲器的工藝、封裝、需求大不相同。

這就導緻,從1980年開始至今,二者之間的性能差距越來越大。資料顯示,從1980年到2000年,處理器和存儲器的速度失配以每年50%的速率增加。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(1980-2000年,處理器和存儲器兩者的速度失配以每年50%的速率增加 圖 / 電子工程專輯)

存儲器資料通路速度跟不上處理器的資料處理速度,兩者之間資料交換通路狹窄以及由此引發的高能耗兩大難題,在存儲與運算之間築起了一道“記憶體牆”。

為了減小記憶體牆的影響,提升記憶體帶寬一直是存儲晶片關注的技術問題。黃仁勳曾表示計算性能擴充最大的弱點就是記憶體帶寬。

HBM,便是該難題的解法。

高帶寬存儲器(High Bandwidth Memory),是一種硬體存儲媒體。基于其高吞吐高帶寬的特性,受到工業界和學術界的關注。

HBM其中一個優勢就是通過中介層縮短記憶體與處理器之間的距離,通過先進的3D封裝方式把記憶體和計算單元封裝在一起,提高資料搬運速度。

超異構,兼顧性能、規模、使用率的新興方案

超異構計算,是能夠把更多的異構計算整合重構,進而能讓各類型處理器間充分地、靈活地進行資料互動而形成的計算。

簡單來說,就是聚合DSA、GPU、CPU、CIM等多個類型引擎的優勢,同時結合Chiplet、3D封裝等新興架構,實作性能的飛躍:

√ DSA負責相對确定的大計算量的工作;

√ GPU負責應用層有一些性能敏感的并且有一定彈性的工作;

√ CPU啥都能幹,負責兜底;

√ CIM就是存内計算,超異構和普通異構的主要差別就是加入了CIM,由此可以實作同等算力,更低能耗;同等能耗,更高算力。另外,CIM由于器件的優勢,能負擔比DSA更大的算力。

超異構計算能夠很好解決性能、規模、使用率問題。

在性能層面,由于存算一體的加入,能夠實作同等算力,更低能耗;同等能耗,更高算力;

在規模層面,由于超異構基于一個計算平台能夠聚合多個類型引擎,能夠兼顧靈活性與通用性,也就沒有因為不夠通用導緻規模過小;又由于該方案較為全能,能夠應付各類型的任務,使用率也能夠得到提升。

超異構未來研究方向

而現實是,僅僅是異構計算,便面臨着程式設計很難的困境,NVIDIA經過數年的努力,才讓CUDA的程式設計對開發者足夠友好,形成主流生态。

超異構就更是難上加難:超異構的難,不僅僅展現在程式設計上,也展現在處理引擎的設計和實作上,還展現在整個系統的軟硬體能力整合上。

對于更好地駕馭超異構,軟硬體融合給出了方向:

1、兼顧性能和靈活性。從系統的角度,系統的任務從CPU往硬體加速下沉,如何選擇合适的處理引擎,達到最優性能的同時,有最優的靈活性。并且不僅僅是平衡,更是兼顧。

2、程式設計及易用性。系統逐漸從硬體定義軟體,轉向了軟體定義硬體。如何利用這些特征,如何利用已有軟體資源,以及如何融入雲服務。

3、産品。使用者的需求,除了需求本身之外,還需要考慮不同使用者需求的差異性,和單個使用者需求的長期疊代。該如何提供給使用者更好的産品,滿足不同使用者短期和長期的需求。授人以魚不如授人以漁,該如何提供使用者沒有特定的具體功能的、性能極緻的、完全可程式設計的硬體平台。

算力即國力,資料中心是各國開展國力之争的“根據地”。資料中心亟需大算力晶片,滿足各大中心側、邊緣側應用場景的需求。

然而在資料中心應用場景下,國内現有雲端AI訓練、推理晶片仍與尖子生英偉達A100晶片有較大差距。同時,現階段工藝制程已達到實體極限、成本極限,尋求更高效的計算架構,才是上上之選。

現如今,存算一體,Chiplet,3D封裝等技術現已成熟,超異構等解決方案可實施性較高。傳統架構上,各國差距明顯,而在新型技術上,各國難分伯仲。

算力之争的格局,正悄然發生變化。

3、國内AI晶片,百舸争流,勝局未定

傳統架構下,英偉達一家獨大

按照市場格局來分,在AI晶片領域,目前有三類玩家。

一種是以Nvidia、AMD為代表的老牌晶片巨頭,這些企業積累了豐富的經驗,産品性能突出。根據上文可知,在雲端場景下,無論是推理晶片還是訓練晶片,國内廠商皆與其有差距。

另一種是以Google、百度、華為為代表的雲計算巨頭,這些企業紛紛布局通用大模型,并自己開發了AI晶片、深度學習平台等支援大模型發展。如Google的TensorFlow以及TPU,華為的鲲鵬、昇騰,阿裡平頭哥的含光800。

最後是AI晶片獨角獸,如寒武紀、壁仞科技、地平線等,憑借雄厚的技術實力、資金基礎、研發團隊,闖進AI晶片賽道。

目前,英偉達占據80%以上中國加速卡市場佔有率,國産AI晶片亟待發展:根據IDC的資料顯示,2021年中國加速卡的出貨數量已經超過80萬片,其中Nvidia占據了超過80%的市場佔有率。剩下的份額被AMD、百度、寒武紀、燧原科技、新華三、華為等品牌占據。

技術路徑背後,暗藏玄機

按照計算架構分類,目前國内大抵分為三大陣營:ASIC、GPGPU、存算一體玩家。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報
模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

通過梳理各廠商使用架構、應用場景、資源禀賦,可以發現以下幾條線索:

大廠與自動駕駛專業晶片廠商們,偏愛ASIC。

國内大廠華為海思、百度、平頭哥皆選擇ASIC作為自己的晶片架構:

1、華為選擇部署端到端的完整生态,例如使用昇騰910必須搭配華為的大模型支援架構MindSpore、盤古大模型。

2、阿裡在該方面的定位是系統內建商和服務商,運用自身晶片産品搭建加速平台中,對外輸出服務。

3、百度昆侖芯主要在自身智算叢集和伺服器上以及國内企業、研究所、政府中使用。

ASIC盡管內建度非常高,性能可以充分發揮、功耗可以得到很好的控制,但缺點也很明顯:應用場景局限、依賴自建生态、客戶遷移難度大、學習曲線較長等問題。

而大廠皆擁有多個特定場景,ASIC“應用場景局限、客戶遷移難度大”的弊端在大廠場景下便不複存在,同時選擇ASIC在量産制造供應鍊上的難度顯著低于GPU。

專注于自動駕駛場景的AI晶片廠商例如地平線、黑芝麻,由于手握多家訂單,同樣避免了ASIC的弊端:截止2023年4月23日,地平線征程晶片出貨量突破了300萬片,與超過20家車企,共計120多款車型達成量産定點合作。

2017年後,AI晶片獨角獸們,加入GPGPU陣營。

由于ASIC隻能在特定場景、固有算法之下發揮極緻性能,廠商們要麼需要自身有特定場景(例如華為等大廠),要麼綁定大客戶(例如耐能科技)。而更為通用的GPGPU展現出該有的性能之後,成為國産AI晶片公司的首選。

可以看到,選擇GPGPU的登臨科技、天數智芯、燧原科技已經把訓練與推理都全面覆寫,而ASIC大多晶片例如平頭哥,隻能專注于推理或是訓練場景。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

2019年前後,新一批AI晶片獨角獸們,押注存算一體

AI算力晶片發展至2019年前後,國内AI晶片廠商們發現,在傳統架構下,CPU、GPU、FPGA已被國外壟斷,且高度依賴先進工藝制程,缺乏一定先進制程技術儲備的國内AI廠商,紛紛尋找新的解法——存算一體晶片。目前,存算一體格局未定,或将成為國内廠商破局關鍵。存算一體主流的劃分方法是依照計算單元與存儲單元的距離,将其大緻分為近存計算(PNM)、存内處理(PIM)、存内計算(CIM)。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

特斯拉、阿裡達摩院、三星等大廠所選擇的,是近存計算。

據Dojo項目負責人Ganesh Venkataramanan介紹,特斯拉Dojo(AI訓練計算機)所用的D1晶片相比于業内其他晶片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空間節省5倍。具體來說,在D1訓練子產品方面,每個D1訓練子產品由5x5的D1晶片陣列排布而成,以二維Mesh結構互連。片上跨核心SRAM達到驚人的11GB,由于用上近存計算架構,能效比為0.6TFLOPS/W@BF16/CFP8。業内人士表示,對于CPU架構來說,這一能效比非常不錯。

阿裡達摩院在2021年釋出采用混合鍵合(Hybrid Bonding)的3D堆疊技術——将計算晶片和存儲晶片face-to-face地用特定金屬材質和工藝進行互聯。據阿裡達摩院測算,在實際推薦系統應用中,相比傳統CPU計算系統,存算一體晶片的性能提升10倍以上,能效提升超過300倍。

三星基于存内處理架構,釋出存儲器産品HBM-PIM(嚴格意義上是PNM)。三星表示該架構實作了更高性能與更低能耗:與其他沒有HBM-PIM晶片的GPU加速器相比,HBM-PIM晶片将AMD GPU加速卡的性能提高了一倍,能耗平均降低了約50%。與僅配備HBM的GPU加速器相比,配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

國内知存科技選擇的是,存内處理:2022年3月,知存科技量産的基于PIM的SoC晶片WTM2101正式投入市場。距今未滿1年,WTM2101已成功在端側實作商用,提供語音、視訊等AI處理方案并幫助産品實作10倍以上的能效提升。

而存内計算,便是國内大部分初創公司所說的存算一體:

億鑄科技,基于CIM架構、RRAM存儲媒體的研發“全數字存算一體”大算力晶片,通過減少資料搬運提高運算能效比,同時利用數字存算一體方法保證運算精度,适用于雲端AI推理和邊緣計算。

智芯科微,于2022年底推出業界首款基于SRAM CIM的邊緣側AI增強圖像處理器。

在存算一體陣營之中,大廠與初創公司同樣因為技術路徑,走了不同的路。

大公司與初創公司“自覺”分為兩個陣營:特斯拉、三星、阿裡巴巴等擁有豐富生态的大廠以及英特爾,IBM等傳統的晶片大廠,幾乎都在布局PNM;而知存科技、億鑄科技、智芯科等初創公司,在押注PIM、CIM等“存”與“算”更親密的存算一體技術路線。

綜合生态大廠思量的是,如何快速攻破算力和功耗的瓶頸,讓自己豐富的應用場景快速落地;晶片大廠們針對客戶所提出的高效算力和低功耗需求,開發出符合客戶需求的技術。

也就是說,大廠對存算一體架構提出的需求是“實用、落地快”,近存計算作為最接近工程落地的技術,成為大廠們的首選。

而中國初創公司們,由于成立時間較短、技術儲備薄弱:缺乏先進2.5D和3D封裝産能和技術,為打破美國的科技壟斷,中國初創企業聚焦的是無需考慮先進制程技術的CIM。

雲端場景下,玩家由淺入深

不同的業務場景均已呈現出各自的優勢,在商業模式上國内外都在探索階段。而不論是國内外公司,先雲端推理是大家一緻的方向。

業界普遍認為,訓練晶片的研發難度和商業化落地更難,訓練晶片可以做推理,但推理晶片不能做訓練。

原因是,在AI訓練的過程中,神經網絡模型并沒有固定,是以對晶片的通用性有很高的需求。而推理則更簡單,增速更快,故而訓練晶片對于晶片公司的設計能力考驗更高。

從全球AI晶片市場來看,先推理後訓練是主流路徑,英特爾收購的AI晶片公司Habana、國内諸多AI初創公司皆是如此。

如此選擇,也是下遊市場的催化作用:

随着近年來AI模型訓練逐漸成熟,AI應用逐漸落地,雲端推理的市場已經逐漸超過了訓練的市場:

根據IDC與浪潮聯合釋出的《2020-2021中國人工智能計算力發展評估報告》顯示,2021年中國市場AI伺服器的推理負載超過訓練負載,并且随着AI進入應用期,資料中心推理算力需求的複合增長率是訓練側的2倍以上,預計到2026年用于推理的加速器占比将超過60%。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

AI晶片“新星”存算一體門檻奇高

2019年後,新增的AI晶片廠商,多數在布局存算一體:據偲睿洞察不完全統計,在2019-2021年新增的AI晶片廠商有20家,在這之中,有10家選擇存算一體路線。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

這無一不說明着,存算一體将成為繼GPGPU、ASIC等架構後的,一顆冉冉升起的新星。而這顆新星,并不是誰都可以摘。

在學界、産界、資本一緻看好存算一體的境況下,強勁的技術實力、紮實的人才儲備以及對遷移成本接受度的精準把控,是初創公司在業内保持競争力的關鍵,也是擋在新玩家面前的三大門檻。

存算一體,打破了三堵牆,能夠實作低功耗、高算力、高能效比,但想要實作如此性能,挑戰頗多:

首先是存算一體涉及到晶片制造的全環節:從最底層的器件,到電路設計,架構設計,工具鍊,再到軟體層的研發;

其次是,在每一層做相應改變的同時,還要考慮各層級之間的适配度。

我們一層一層來看,一顆存算一體晶片被造出來,有怎樣的技術難題。

首先,在器件選擇上,廠商就“如履薄冰”:存儲器設計決定晶片的良率,一旦方向錯誤将可能導緻晶片無法量産。

其次是電路設計層面。電路層面有了器件之後,需要用其做存儲陣列的電路設計。而目前在電路設計上,存内計算沒有EDA工具指導,需要靠手動完成,無疑又大大增加了操作難度。

緊接着,架構層面有電路之後,需要做架構層的設計。每一個電路是一個基本的計算子產品,整個架構由不同子產品組成,存算一體子產品的設計決定了晶片的能效比。模拟電路會受到噪聲幹擾,晶片受到噪聲影響後運轉起來會遇到很多問題。

這種情況下,需要架構師了解模拟存内計算的工藝特點,針對這些特點去設計架構,同時也要考慮到架構與軟體開發的适配度。

軟體層面架構設計完成後,需要開發相應的工具鍊。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

而由于存算一體的原始模型與傳統架構下的模型不同,編譯器要适配完全不同的存算一體架構,確定所有計算單元能夠映射到硬體上,并且順利運作。

一條完整的技術鍊條下來,考驗着器件、電路設計、架構設計、工具鍊、軟體層開發各個環節的能力,與協調各個環節的适配能力,是耗時耗力耗錢的持久戰。

根據以上環節操作流程可以看到,存算一體晶片亟需經驗豐富的電路設計師、晶片架構師。

除此之外,鑒于存算一體的特殊性,能夠做成存算一體的公司在人員儲備上需要有以下兩點特征:

1、帶頭人需有足夠魄力。在器件選擇(RRAM、SRAM等)、計算模式(傳統馮諾依曼、存算一體等)的選擇上要有清晰的思路。

這是因為,存算一體作為一項颠覆、創新技術,無人引領,試錯成本極高。能夠實作商業化的企業,創始人往往具備豐富的産業界、大廠經驗和學術背景,能夠帶領團隊快速完成産品疊代。

2、在核心團隊中,需要在技術的各個層級中配備經驗豐富的人才。例如架構師,其是團隊的核心。架構師需要對底層硬體,軟體工具有深厚的了解和認知,能夠把構想中的存算架構通過技術實作出來,最終達成産品落地;

3、此外,據量子位報告顯示,國内缺乏電路設計的高端人才,尤其在混合電路領域。存内計算涉及大量的模拟電路設計,與強調團隊協作的數字電路設計相比,模拟電路設計需要對于工藝、設計、版圖、模型pdk以及封裝都極度熟悉的個人設計師。

落地,是第一生産力。在傳遞時,客戶考量的并不僅僅是存算一體技術,而是相較于以往産品而言,存算一體整體SoC的能效比、面效比和易用性等性能名額是否有足夠的提升,更重要的是,遷移成本是否在承受範圍内。

如果選擇新的晶片提升算法表現力需要重新學習一套程式設計體系,在模型遷移上所花的人工成本高出購買一個新GPU的成本,那麼客戶大機率不會選擇使用新的晶片。

是以,存算一體在落地過程中是否能将遷移成本降到最低,是客戶在選擇産品時的關鍵因素。

目前來看,英偉達憑借着更為通用的GPGPU霸占了中國AI加速卡的市場。

然而,存算一體晶片憑借着低功耗但高能效比的特性,正成為晶片賽道,冉冉升起的一顆新星。

而存算一體市場,風雲未定,仍處于“小荷才露尖尖角”階段。但我們不可否認的是,存算一體玩家已然構築了三大高牆,非技術實力雄厚,人才儲備紮實者,勿進。

4、行業發展趨勢

存算一體,算力的下一級

随着人工智能等大資料應用的興起,存算一體技術得到國内外學界與産界的廣泛研究與應用。在2017年微處理器頂級年會(Micro 2017)上,包括英偉達、英特爾、微軟、三星、加州大學聖塔芭芭拉分校等都推出他們的存算一體系統原型。

自此,ISSCC上存算/近存算相關的文章數量迅速增加:從20年的6篇上漲到23年的19篇;其中數字存内計算,從21年被首次提出後,22年迅速增加到4篇,23年有6篇。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(ISSCC2023存算一體相關文章 圖 / ISSCC2023)

系統級創新,嶄露頭角

系統級創新正頻頻現身半導體TOP級會議,展露着打破算力天花闆的潛力。

在AMD的總裁兼CEO Lisa Su(蘇姿豐)帶來的主旨演講“Innovation for the next decade of compute efficiency“(下一個十年計算效率的創新)中,她提到了AI應用的突飛猛進,以及它給晶片帶來的需求。

Lisa Su表示,根據目前計算效率每兩年提升2.2倍的規律,預計到2035年,如果想要算力達到十萬億億級,則需要的功率可達500MW,相當于半個核電站能産生的功率,“這是極為離譜、不切合實際的”。

而為了實作這樣的效率提升,系統級創新是最關鍵的思路之一。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(算力與功耗關系 圖 / ISSCC2023大會)

在另一個由歐洲最著名三個的半導體研究機構IMEC/CEA Leti/Fraunhofer帶來的主旨演講中,系統級創新也是其核心關鍵詞。

該演講中提到,随着半導體工藝逐漸接近實體極限,新的應用對于晶片的需求也必須要從系統級考慮才能滿足,并且提到了下一代智能汽車和AI作為兩個尤其需要晶片從系統級創新才能支援其新需求的核心應用。

“從頭到腳”打破算力天花闆

系統級創新,是協同設計上中下遊多個環節,實作性能的提升。還有一種說法是,系統工藝協同優化。

系統工藝協同優化為一種“由外向内”的發展模式,從産品需支援的工作負載及其軟體開始,到系統架構,再到封裝中必須包括的晶片類型,最後是半導體制程工藝。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(系統工藝協同優化 圖 / ISSCC2023大會)

簡單來說,就是把所有環節共同優化,由此盡可能地改進最終産品。

對此,Lisa Su給出了一個經典案例:在對模型算法層面使用創新數制(例如8位浮點數FP8)的同時,在電路層對算法層面進行優化支援,最終實作計算層面數量級的效率提升:相比傳統的32位浮點數(FP32),進行系統級創新的FP8則可以将計算效率提升30倍之多。而如果僅僅是優化FP32計算單元的效率,無論如何也難以實作數量級的效率提升。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(特定域計算支援工作負載優化,進而提高性能和效率 圖 / ISSCC2023大會)

這便是系統級創新成為關鍵路徑的原因所在:如果電路設計僅僅停留在電路這一層——隻是考慮如何進一步優化FP32計算單元的效率,無論如何也難以實作數量級的效率提升。

對此,在未來發展機會子產品的演講中,Lisa Su給出了未來系統級封裝架構的大緻模樣:包含異構計算叢集,特定加速單元,先進封裝技術,高速片間UCIe互聯,存算一體等記憶體技術。

模型背景下,AI晶片廠商面臨怎樣的機遇與挑戰?|深度研報

(未來的系統級封裝架構 圖 / ISSCC2023大會)

百舸争流,創新者先

技術路徑、方案已然明确,接下來就是拼魄力的階段。

每一個新興技術的研發廠商,在前期無疑要面臨技術探索碰壁,下遊廠商不認同等各個層面的問題。而在早期,誰先預判到未來的發展趨勢,并用于邁出探索的腳步,鋪下合理的資源去嘗試,就會搶到先機。

晶片巨頭NVIDIA在這方面做出了很好的榜樣。

當資料中心浪潮還未鋪天蓋地襲來、人工智能訓練還是小衆領域之時,英偉達已經投入重金,研發通用計算GPU和統一程式設計軟體CUDA,為英偉達謀一個好差事——計算平台。

而在當時,讓GPU可程式設計,是“無用且虧本”的:不知道其性能是否能夠翻倍,但産品研發會翻倍。為此,沒有客戶願意為此買單。但預判到單一功能圖形處理器不是長遠之計的英偉達毅然決定,在所有産品線上都應用CUDA。

在芯東西與英偉達中國區工程和解決方案進階總監賴俊傑博士的采訪中,賴俊傑表示:“為了計算平台這一願景,早期黃仁勳快速調動了英偉達上上下下非常多的資源。”

遠見+重金投入,在2012年,英偉達拿到了創新者的獎勵:2012年,深度學習算法的計算表現轟動學術圈,作為高算力且更為通用、易用的生産力工具,GPU+CUDA迅速風靡計算機科學界,成為人工智能開發的“标配”。

現如今,存算一體已顯現出強大的性能,在人工智能神經網絡、多模态的人工智能計算、類腦計算等大算力場景,有着卓越的表現。

國内廠商也在2019年前後紛紛布局存算一體,同時選擇3D封裝、chiplet等新興技術,RRAM、SRAM等新興存儲器,突破算力天花闆。

AI大算力晶片的戰争,創新者為先。

5、結語

ChatGPT火爆來襲,引發AI産業巨浪,國産AI晶片正迎來3.0時代;在3.0時代,更适配大模型的晶片架構——存算一體将嶄露頭角,同時系統級創新将成為未來的發展趨勢,搶先下注的廠商将先吃到ChatGPT帶來的紅利。

*文中題圖來自:攝圖網,基于VRF協定。

繼續閱讀