天天看點

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

作者 | ZeR0

編輯 | 漠影

從2022年11月開始,美國人工智能(AI)公司OpenAI連續祭出ChatGPT家族的3、3.5、4以及插件還有商業落地模式的連環大招,引爆了全球關注和期待AI應用發展的新一輪熱潮。而在此之前,AI發展曆程中已出現過兩次“聖杯時刻”。

2012年10月,在國際頂級賽事ImageNet計算機視覺挑戰賽上,傑弗裡·辛頓與其團隊用卷積神經網絡(CNN)算法一舉奪魁,憑借比人眼識别還低的錯誤率,掀開了計算機視覺盛世的序章。

2016年3月,DeepMind研發的AI程式AlphaGo戰勝世界圍棋冠軍李世石,在全世界擲下一枚重磅炸彈。“人工智能”從此出圈,創業狂瀾席卷全球,2016年也被稱作“人工智能元年”。

兩次“聖杯時刻”背後的算力功臣,分别是英偉達GPGPU(通用圖形處理單元)晶片與谷歌TPU(張量處理單元)晶片。他們也成為業界AI大算力晶片企業競相模仿和追趕的對象。

如今,ChatGPT的橫空出世宣告着AI行業迎來第三次“聖杯時刻”,業界也将其盛贊為AI時代的“iPhone時刻”。盡管ChatGPT及一衆主流大模型背後的晶片主力仍是GPGPU,但嚴峻的挑戰已經擺到眼前:一邊是計算量爆棚的生成式AI與大模型發展熱情高漲,另一邊是即将觸頂的算力增長空間與算力消耗所帶來的驚人碳排放量。

正如馬斯克所述,大多數人會用舉一反三的類比推理來思考問題,即模仿别人做的事情再加以小幅更改,可如果想做出新的東西,必須敢于打破正常、積極質疑舊的經驗知識,探究問題本質,層層推演,進而創造出新的解決方案。

中國AI大算力晶片的創新之路,大抵亦是如此。

當ASIC、GPGPU發展道路面臨底層技術與産業需求的雙向夾擊,“換道”也許能開辟新的可能。誰能率先填補大模型算力需求的缺口,誰就有機會搶占新一輪AI晶片搶位賽的前排。

01.

國産AI大算力晶片的

三波創業浪潮與三大技術流派

ChatGPT引起的算力焦慮,已經将提高能效比與算力使用率的迫切性推到台前。

在産業前景、戰略重要性、自主可控等多重因素驅動下,一批批中國AI晶片企業立足于不同的技術路徑,前赴後繼地進入AI大算力晶片領域,并形成群雄逐鹿的三大技術流派。

第一波浪潮是基于ASIC架構,也可以劃定為中國AI大算力晶片落地的技術1.0。

這可追溯至2015年-2016年,并稱“天寒地鑒”的AI晶片四小龍雲天勵飛、寒武紀、地平線、深鑒科技,都是在此期間啟動AI晶片研發。其中唯一的FPGA代表玩家深鑒科技于2018年被美國FPGA龍頭賽靈思收購。寒武紀和地平線分别是領跑雲端和自動駕駛國産大算力晶片落地的企業,都選擇做ASIC(專用晶片)。

2016年5月,谷歌揭曉AlphaGo背後的功臣TPU,吹響了産業沿襲ASIC路線的号角。此後多家創企以及華為、亞馬遜等雲計算大廠均選擇在ASIC晶片賽道安營紮寨。上海交通大學計算機科學與工程系教授梁曉峣告訴智東西,在算法較固定的情況下,專用晶片的性能和功耗優勢明顯,能夠滿足企業對極緻算力和能效的追求。

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

▲AI不同計算任務需要各類晶片實作(圖源:浙商證券)

然而,下遊AI算法的演進速度遠超想象。根據頂級AI研究企業OpenAI在2018年釋出的一份分析報告,自2012年到2017年,訓練最大AI模型所使用的算力每3.4個月翻1倍。相比之下,按照晶片行業的“圭臬”摩爾定律,晶片上容納的半導體數量每18~24個月才會翻1倍,兩者之間僅從翻倍的時間上,就産生了16-20個月的差距。

專用晶片在特定場景能實作更高算力和能效,但難以适應算法種類快速的增加以及疊代速度,是以通用性更強的GPGPU一直是AI晶片的主角。在2018年中美科技競争大幕拉開後,國産替代的呼聲越來越高,創業熱點随之切換到英偉達雄踞多年的GPGPU(通用GPU)賽道。

這成為第二波浪潮中主流技術路徑,也可以劃定為中國AI大算力晶片落地的技術2.0。天數智芯、登臨科技、壁仞科技、摩爾線程、沐曦內建電路等一批初創公司,大緻都是2017年-2020年期間創業或啟動自研GPGPU晶片的研發。

資本也蜂擁而至,邏輯很簡單,GPGPU市場有英偉達珠玉在前,已經驗證了成功的可能性。以英偉達上百億美元年收入與跻身全球前十的市值來看,假若能切走英偉達在中國的市場佔有率,足以帶給國産AI大算力晶片企業優渥的回報。

但無論是ASIC還是GPGPU,在應對生成式AI及大模型正對算力基礎設施提出的新要求,都顯得多少有些捉襟見肘。

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

▲大模型參數邁向千億時代,算力需求一路飙漲(圖源:浙商證券)

眼見着摩爾定律身陷邊際效用遞減的困境,ASIC晶片的弱通用性難以應對下遊算法的快速演化,GPGPU又難解高功耗與低算力使用率問題,業界正翹首以盼新架構、新工藝、新材料、新封裝,以進一步突破算力天花闆。

與此同時,博弈氣息日漸濃厚的地緣關系,又給對先進制程工藝高度依賴的AI大算力晶片創企們提出了技術之外的新難題。

在這些大背景下,第三波創業浪潮正滾滾向前。從2017年到2021年期間集中成立的一批創企,選擇探路存算一體等新興技術,這可以被劃定為中國AI大算力晶片落地的技術3.0。

不同于ASIC與GPGPU,這些新興技術路線跳出了馮·諾依曼架構體系,理論上擁有得天獨厚的高能效比優勢,又能繞過先進制程封鎖,兼顧更強通用性與更高成本效益,算力發展空間巨大。随着新型存儲器件走向量産,存算一體AI晶片已經挺進AI大算力晶片落地競賽。

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

▲馮·諾依曼、近存計算、存内計算架構對比(圖源:億鑄科技)

而無論是傳統計算晶片還是存算一體晶片,在實際加速AI計算時往往還需處理大量的邏輯計算、視訊編解碼等非AI加速計算領域的計算任務。随着多模态成為大模型時代的大勢所趨,AI晶片未來需處理文本、語音、圖像、視訊等多類資料。

這個問題如何解決?億鑄科技,一家做存算一體AI大算力晶片的創企提出了自己的解法——存算一體超異構AI大算力技術路徑。這也是業内首次提出将存算一體和超異構做結合,提供在大模型時代AI大算力晶片換道發展的一個全新思路。

02.

兼顧通用性&高性能

未來必然走向超異構

生成式AI和大模型時代向算力基礎設施提出的核心要求,可以簡單概括為幾個詞:提高單晶片算力,突破算力使用率,實作更高能效比。

上海交通大學計算機科學與工程系教授、博導梁曉峣及其團隊是開源GPGPU平台“青花瓷”的發起者。他談道,當下需從系統的角度來思考問題。首先在單晶片算力方面,他非常看好存算一體,認為通過引入新型存儲器件工藝,存算一體AI晶片有望将單晶片算力提高1~2個數量級。

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

▲存算一體能實作超越傳統ASIC晶片的更大算力、更高能效(圖源:浙商證券)

但單顆晶片很難為大模型提供充足的計算資源與存儲資源,這就需要将很多計算晶片連在一起,形成系統。據韓媒報道,受ChatGPT熱潮驅動,南韓兩大存儲晶片巨頭三星電子、SK海力士的高帶寬記憶體(HBM)接單量大增。

晶片與晶片之間的資料傳輸過程,往往會造成大量不必要的資源浪費,導緻計算系統受限于傳輸帶寬瓶頸,在實際應用中發揮的算力遠小于理論峰值算力。要進一步提升計算資源使用率,必須研究更先進的互連技術,以實作成千上萬個AI晶片之間的高效協同。

最後,軟體的疊代更新亦不可或缺。要降低晶片開發門檻并實作所有晶片的高效協同,需要設計分布式的AI程式設計軟體平台,來解決線程排程、同步、任務平衡等複雜問題。

“沒有一個單晶片能夠獨立解決大模型問題,是以一定是走向一個超異構。”梁曉峣說,盡管他很看好存算一體路線,但僅靠存算一體還不夠,還需與其他架構配合,形成一個完整的系統。

億鑄科技首次提出的“存算一體超異構”概念,就有可能是一個未來的理想組合。

超異構計算将CPU、GPGPU、CIM(存内計算)等不同類型的晶片用先進封裝技術組合,讓不同架構各司其職,既有靈活、可程式設計的部分來适應算法的快速變化,又有定制化部分來提供超高性能和超低功耗,通過統籌排程,綜合發揮出多類晶片架構的優勢,将整體效率做到最優。

由于器件優勢,存算一體在同等功耗下能承擔更大算力。在超異構計算的基礎上,以存算一體架構為核心,以其他架構作輔助,理論上能夠兼顧對高算力與通用性的需求。億鑄科技創始人、董事長兼CEO熊大鵬博士相信,存算一體超異構将來會成為AI算力晶片的主流技術路線之一。

在今年2月份舉行的國際晶片設計領域最進階别會議ISSCC 2023大會上,AMD董事長兼CEO蘇姿豐也提出了相似的“系統級創新”概念,即綜合考慮跨計算、跨通信、跨記憶體等各項元素,從整體上推動系統級性能和能效的提升。

而存算一體超異構理念的前瞻性和落地可行性在于,它不像基于傳統計算架構的大算力晶片那樣依賴先進制造技術。這一思路需結合的新架構、新存儲、新封裝等前沿技術,國内均已有儲備。

03.

減輕先進制程依賴症,億鑄科技的

存算一體超異構如何換道超車?

據悉,存算一體超異構主要運用到新型憶阻器(RRAM)、存算一體架構、Chiplet(芯粒)、3D封裝等技術,而國内企業在這些技術路線上已經有越來越多的起色。

Chiplet及先進封裝方案能夠彌補先進制程落後的劣勢,通過将來自不同生産廠商、不同制程工藝的晶片元件“混搭”,降低實作目标性能所需的成本。這為國内晶片企業提供彎道超車的機會。

目前,國内封測巨頭相關技術積累已初顯成效。例如長電科技的XDFOI Chiplet高密度多元異構內建系列工藝已進入穩定量産階段;通富微電與AMD密切合作,已大規模生産7nm Chiplet産品;華天科技的Chiplet系列工藝也實作量産。

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

▲未來算力更新路徑:Chiplet、存算一體(圖源:浙商證券)

從單晶片來看,熊大鵬告訴智東西,存算一體晶片屬于是“換道超車”,對工藝的要求較低,比如在28nm工藝上實作的算力和能效,就能比肩甚至超過傳統架構晶片在7nm工藝上的表現。

梁曉峣說,億鑄科技是第一家嘗試設計并量産基于ReRAM全數字存算一體AI大算力晶片的企業。據熊大鵬透露,億鑄科技自研的存算一體AI大算力晶片,或将在75W-100W功耗範圍内實作接近1P的算力,能效比優勢非常顯著,将于今年回片。同時,億鑄科技基于存算一體超異構概念的下一代晶片設計工作已經開始推進。

從器件來看,相比傳統存儲器存在易失性、微縮性差等痼疾,億鑄科技選擇采用的非易失性新型存儲器RRAM更适合應用于AI大算力場景。

此前,台積電、聯電、中芯國際、昕原半導體等代工廠均建立了商業化RRAM産線。去年2月,昕原半導體主導建設的RRAM 12寸中試生産線已順利完成自主研發裝備的裝機驗收工作,實作中試線工藝流程的通線,并成功流片。

熊大鵬認為,随着工藝不斷疊代,國内“超車”速度會越來越快,優勢會越來越明顯。

從超異構來看,對于國内企業來說,CPU有廣受歡迎的開源RISC-V架構,GPGPU有新興的開源架構“青花瓷”平台,存算一體也有億鑄科技等廠商在大力投入研發。

開源GPGPU“青花瓷”平台由上海交通大學先進計算機體系結構實驗室開發,定位相當于GPGPU領域的RISC-V架構。它提供了一個免費開放的先進GPGPU指令集和架構參考設計,能夠接入現有GPGPU生态,進而助力降低設計門檻,加速相應産品的落地。

把GPT時代引擎拉滿,國産AI大算力晶片換道狂飙

▲“青花瓷”平台開源代碼頁面

“青花瓷”平台直通門:gpgpuarch.org

開源位址:github.com/SJTU-ACA-Lab/blue-porcelain

在梁曉峣看來,超異構需要不同類型的晶片架構互相配合、取長補短,這恰好與“青花瓷”平台的設計思路完美契合。

存算一體架構适用于計算和資料量大但算法相對簡單的應用,在性能和功耗的優勢超過其他類型架構;而GPGPU架構可以适配現有的主流AI架構和平台,并能處理比較複雜的算法。兩者結合,将會實作更大有效算力、放置更多參數、實作更高能效比、更好的軟體相容性。

是以,面向未來大模型時代,存算一體超異構的技術路徑打開了國内AI大算力晶片技術發展的新思路,而億鑄科技的存算一體超異構晶片是該路徑在國内切實落地的關鍵一步。

04.

結語:大模型落地勢不可擋

AI算力困境亟待換道突破

正如蘇姿豐所言,AI已是未來十年最重要的事。

在生成式AI風暴的催化下,大模型正發展成AI基礎研究和産業化落地的一大趨勢。這對三波創業浪潮中的一衆AI大算力晶片創業公司提出了摩爾定律瀕臨極限之外更大的技術挑戰:如何以更低的系統成本、更少的能源消耗,支撐起龐大且持續增加的參數量所帶動的更高算力需求?

在美國對華屢屢架設晶片藩籬的背景之下,國内短期内難以實作先進制程的自主可控。回望中國AI大算力晶片發展曆程,業界一直用“彎道超車”來寄予對其發展路徑的期待,但彎道超車隐喻着産品和技術的發展和行業頭部企業在同一賽道上做跟随和追及,這勢必對後來者在速度上和超車節點的把握上提出了更高的要求。

骨感的現實告訴我們,中國AI大算力晶片在“彎道超車”路徑下,也許還有很長的路要追趕。而“換道”可能加速縮短與國際先進水準的差距。同時,換道發展也不是無本之木,其晶片設計和量産有着嚴謹的底層邏輯和成熟的産業鍊配套作為支撐。億鑄科技的存算一體超異構AI大算力晶片技術,便提供了一種能夠适應未來算法快速變化、滿足算力可持續發展需求的可行思路。

中國AI大算力晶片企業面臨的挑戰依然險峻,但不管是落地技術的1.0、2.0還是3.0,不管是同道追及還是換道前行,所有的努力都是為了支撐中國AI産業的高速發展,隻要能切實解決問題,提供有價值的産品,都值得關注和期待。沉舟側畔千帆過,病樹前頭萬木春,希望看到更多像億鑄科技這樣的機構,大步流星地走到換道前行的賽道上,為破解國内AI大算力困局探尋屬于中國AI晶片産業自己的發展道路。