天天看點

GPU行業分析

GPU英文全稱是Graphics Processing Unit,即圖形處理單元,是顯示卡上的一塊晶片,這一概念是由英偉達公司(Nvidia)于1999年提出,主要作用是協助顯示卡做圖形處理和并行計算,相當于顯示卡的“大腦”,也是晶片領域核心産品之一。随着ChatGPT的橫空出世,越來越多的人們才知道GPU在商業計算、人工智能等衆多科技領域發揮的重要作用。

以下内容将對GPU行業進行分析,從概念入手,對GPU具備的優勢、核心功能、行業發展曆程、市場情況等方面展開論述,同時,針對GPU産業鍊、重點布局企業及競争格局進行分析,希望大家對了解GPU行業有所啟發。

一、行業概述。

(一)GPU的定義。

1.GPU一般指圖形處理器,又稱顯示核心、視覺處理器、顯示晶片,是一種專門在個人電腦、工作站、遊戲機和一些移動裝置(如平闆電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。

2.GPU是顯示卡的處理器。顯示卡全稱叫做顯示擴充卡,主要作用隻協助CPU進行圖像處理,工作原理是将CPU下達的圖像信号經過處理再輸送到顯示器上。顯示卡主要由主機闆連接配接裝置、螢幕連接配接裝置、處理器和記憶體組成,GPU就是顯示卡的處理器。

(二)GPU與CPU的主要差別。

1、最初的GPU隻專用于顯示卡的圖形處理制作。其工作原理是首先完成3D圖形的生成,接着将圖形映射到相應的像素點上,再對每個像素計算确定最終顔色并完成輸出。一般分為頂點處理、光栅化計算、紋理貼圖、像素處理、輸出五個步驟。

2、GPU擁有強大的并行運算能力。GPU内部具有大量的運算單元核心,盡管單個核心緩存較小,邏輯功能簡單,僅能執行有限類型的邏輯運算操作,但GPU多核心的架構設計就讓他具有執行複雜算力的能力,天然适合并行處理密集資料,擅長大規模并發計算。是以GPU越來越多的被應用于AI訓練等需要大規模并發計算的場景之中。

3、CPU是中央處理器,是計算機的運算核心和控制核心。它的主要功能是解釋計算機指令以及處理計算機軟體中的資料。CPU屬于通用晶片,采用低延時設計方式,由運算器(ALU)、控制器(CU)以及若幹個寄存器和高速緩沖存儲器組成,功能子產品較多,具有強大的排程、管理和協調能力,應用範圍廣,靈活性最高。

(三)GPU在應用端細分為PCGPU、伺服器GPU、智能駕駛GPU、移動端GPU。

1、PCGPU進一步劃分為獨立顯示卡和內建顯示卡。獨立顯示卡是一種與處理器CPU分離的GPU,自身具有專用記憶體和電源,不與CPU共享,是以性能更高,功率更大,産生熱量更多。獨立顯示卡常見于桌上型電腦、筆記本電腦和小型PC,主要的廠商有英偉達和AMD。內建顯示卡是一種内置于處理器的GPU,與CPU共享系統記憶體,是以與獨立顯示卡相比功耗更低,産生的熱量更少,性能也較差。內建顯示卡的處理器通常位于外形較小的系統中,例如筆記本電腦,主要産商主要是Intel和AMD。

2、伺服器GPU通常應用在深度學習、科學計算、視訊編解碼等多種場景,主要的廠商包括英偉達和AMD,其中英偉達占主導地位。

3、自動駕駛領域。GPU通常用于自動駕駛算法的車端AI推理,英偉達占據主導地位。

(四)GPU的核心功能。

1、強大的圖形渲染能力。GPU憑借其較強的并行計算能力,已經成為個人電腦中圖像渲染的專用處理器。圖形渲染具體實作要通過五階段:頂點着色、形狀裝配、光栅化、紋理填充着色、測試與混合。

GPU的渲染流程共分為六個步驟,一是三維圖像資訊輸入進計算機,GPU讀取3D圖形外觀的頂點資料,二是在流處理器中建構3D圖形的整體骨架,即頂點處理,三是由光栅化處理單元把矢量圖形轉化為一系列像素點,即光栅化操作,四是在紋理映射單元實作紋理填充,五是在流處理器中完成對像素的計算和處理,即着色處理,六是在光栅化處理單元中實作測試與混合任務。至此,實作一個完整的GPU渲染流程完畢。

2、廣泛的通用計算能力

2003年,基于GPU的通用計算概念首次被提出,這就是GPGPU(General Purpose computing on GPU),即利用GPU的計算能力在非圖形處理領域進行更通用、更廣泛的科學計算。将傳統GPU進行優化,去除一部分負責圖形處理加速的硬體,使之更适合高性能并行計算,GPGPU誕生了。

因為并行處理結構的設計非常适合各種智能計算場景,是以GPGPU被廣泛應用在人工智能、高性能計算和資料分析等領域。

(五)GPU中常見的資料格式和應用場景。

“定點表示”和“浮點表示”是計算機中常用的兩種資料格式。“定點表示”的特點是小數點位置固定不變,數值範圍相對有限,INT8和INT16是GPU常用的定點表示,它們多用于深度學習的推理過程。

“浮點表示”包括符号位、階碼部分、尾數部分。符号位決定數值正負,階碼部分決定數值表示範圍,尾數部分決定數值表示精度。FP64(雙精度)、FP32(單精度)、FP16(半精度)的數值表示範圍和表示精度依次下降,運算效率依次提升。

除此以外還有TF32、BF16等其他浮點表示,保留了階碼部分但是截斷了尾數部分,犧牲數值精度換取較大的數值表示範圍,同時獲得運算效率的提升,在深度學習中得到廣泛應用。

(六)應用程式接口是GPU和應用軟體的連接配接橋梁。

API是GPU的應用程式接口,連接配接GPU硬體與應用程式的程式設計,起到高效執行圖形的頂點處理、像素着色等渲染功能。由于早期缺乏通用接口标準,工程師們隻能針對特定平台的特定硬體進行程式設計,工作量極大。随着API的誕生以及系統優化的不斷深入,GPU的API可以直接統籌管理進階語言、顯示卡驅動及底層的彙編語言,提高開發過程的效率和靈活性。

GPU應用程式接口主要涵蓋兩大陣營,分别是Microsoft DirectX和Khronos Group技術标準。前者提供一整套多媒體解決方案,3D渲染表現突出,但隻能用于windows系統。後者OpenGL的硬體比對範圍更廣,同時在CAD、遊戲開發、虛拟現實等高端繪圖領域得到廣泛應用。

(七)CUDA架構實作了GPU并行計算的通用化。

CUDA是英偉達2007年推出的适用于并行計算的統一計算裝置架構,該架構可以利用GPU來解決商業、工業以及科學方面的複雜計算問題。CUDA架構讓GPU的功能不止局限于圖形渲染,而是實作了GPU并行計算的通用化,把“個人計算機”變成可以并行運算的“超級計算機”。英偉達在推出了CUDA以後,把複雜的顯示卡程式設計包裝成了一個簡單的接口,可以利用CUDA直覺地編寫GPU核心程式,使得程式設計效率大幅提升。現在主流的深度學習架構基本都是基于CUDA加速GPU并行計算。

二、行業發展曆程。

(一)前GPU時代,圖形處理器初具雛形。

IBM公司于1981年釋出了世界上第一台個人電腦,其搭配的黑白顯示擴充卡與彩色圖形擴充卡,是最早的圖形顯示控制器。20世紀80年代初期,出現了以GE晶片為标志的圖形處理器,這種處理器具備四位向量的浮點運算功能,可以實作圖形渲染過程中的矩陣、裁剪、投影等運算,标志着計算機圖形學進入了以圖形處理器為主導的階段。

(二)GeForce256橫空出世,GPU正式誕生。20世紀90年代,英偉達進入個人電腦3D市場,1999年推出了具有标志意義的圖形處理器GeForce256,GPU正式面世。相比較于過往圖形處理器,第二代GPUGeFORCE256将T&L硬體(用于處理圖形的整體角度旋轉與光暈陰影等三維效果)從CPU中分離出來并整合進GPU中。這具有兩重意義,一是讓GPU可以獨立進行三維頂點空間坐标變換,二是将CPU從繁重的光照計算中解脫出來。是以即便是低端CPU搭配了支援硬體T&L的顯示卡也可以流暢的玩遊戲。GPU的問世也讓英偉達在市場競争中獲得較大優勢,市占率持續大幅提升。

(三)頂點程式設計确立GPU程式設計思路。經過了2000年的顯示卡廠商洗牌,2002年第三代GPU晶片陸續退出(如英偉達的GeForce4Ti和ATI的8500),這些晶片均具備頂點程式設計能力,可以通過賦予特定算法在工作中改變三維模型的外形。頂點程式設計能力的出現确立了GPU晶片的程式設計思路,使後續GPU晶片用于其他計算領域成為可能。但本時期的GPU尚不支援像素級程式設計能力(片段程式設計能力),其程式設計自由度不完備。

(四)GPU用于通用計算,GPGPU概念出現。

2003年的SIGGRAPH大會上首次提出将GPU運用于通用計算,為GPGPU的出現打下基礎,此後三年,通過用統一的流處理器取代GPU中原有的不同着色單元的設計徹底釋放了GPU的計算能力,第四代GPU均具有頂點程式設計和片段程式設計能力,完全可程式設計的GPU正式誕生。由于GPU的并行處理能力強于CPU,是以GPU可以在同一時間處理大量頂點資料,使其在人體CT、地質勘探、氣象資料、流體力學等科學可視化計算處理上具備較大優勢,足以滿足各項實時性任務。伴随線性代數、實體仿真和光線跟蹤等各類算法向GPU晶片的不斷移植,GPU由專用圖形顯示向通用計算逐漸轉型。

(五)架構持續疊代,AI計算關注度漸起。

2010年英偉達釋出了全新GPU架構Fermi,是支援CUDA的第三代GPU架構(第一代與第二代分别是G80架構與GT200架構)。當時英偉達在Fermi架構的設計上并未對AI計算場景做特定設定,但相較于CPU晶片,GPU晶片在AI計算領域已經擁有了較大優勢。2012、2014年陸續釋出的Kepler架構、Maxwell架構中,并未在硬體層面對AI計算做特定優化,但在軟體層面卻引入了深度神經網絡加速庫cuDNNv1.0,使英偉達GPU的AI計算性能與易用性得到了一定程度的提升。

(六)釋出Pascal架構,專精版本AI精算到來。Pascal架構在2016年3月被推出,是英偉達面向AI計算場景釋出的第一個架構。硬體結構中加入FP16(半精度浮點數計算)、NVlink(總線通信協定,可用于單CPU配置多GPU)、HBM(提升訪存帶寬)、INT8格式支援(支援推理場景)等技術,軟體層面也釋出了面向推理加速場景的TensorRT與開源通信函數庫NCCL,Psdcal架構在AI計算領域的前瞻性布局使得英偉達後續架構在競争中具有較大優勢。

(七)細分場景不斷追趕,GPU迎來高速發展期。

繼Pascal架構後,面對谷歌TPU在AI計算層面帶來的壓力,英偉達先後更新了Volta2017、Turing2018、Ampere時代2020架構,AI計算領域的技術代差在Volta架構通過引入第一代TensorCore在訓練場景上拉平,随後Turing架構的第二代TensorCore在推理場景上拉平,直到Ampere時代,英偉達才算鞏固了自己在AI計算領域的龍頭地位,雙方激烈競争下,GPU迎來高速發展期。

二、影響GPU性能的關鍵因素。

(一)微架構設計是GPU性能提升的關鍵。

評估GPU實體性能的參數主要包括:微架構、制程、圖形處理器數量、流處理器數量、顯存容量/位寬/帶寬/頻率、核心頻率,其中微架構設計是GPU性能提升的關鍵。

GPU微架構(Micro Architecture)指的是相容特定指令集的實體電路構成,由流處理器、紋理映射單元、光栅化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數主要用于繪制各種圖形及像素、實作光影處理、3D坐标變換等過程,期間涉及大量同類型資料(如圖像矩陣)的密集、獨立的數值計算,而GPU結構中衆多重複的計算單元就是為适應此類特點的資料運算而設計的。

微架構的設計對GPU性能的提升發揮着至關重要的作用,也是GPU研發過程中最關鍵的技術壁壘。微架構設計影響到晶片的最高頻率、一定頻率下的運算能力、一定工藝下的能耗水準,是晶片設計的靈魂所在。英偉達H100相比于A100,1.2倍的性能提升來自于核心數目的提升,5.2倍的性能提升來自于微架構的設計。

(二)GPU微架構的硬體構成。

一是流處理器。是GPU的基本運算單元,通常由整點運算部分和浮點運算部分共同組成,稱為SP單元,從程式設計角度出發,也将其稱為CUDA核心。流處理器是DirectX10後引入的一種統一渲染架構,綜合了頂點處理和像素處理的渲染任務,流處理器的數量和顯示卡性能密切相關。

二是紋理映射單元。GPU中的獨立部件,能夠旋轉、調整和扭曲位圖圖像(執行紋理采樣),将紋理資訊填充在給定3D模型上。

三是光栅化處理單元。依照透視關系,将整個可視空間從三維立體形态壓到二維平面内。流處理器和紋理映射單元分别把渲染好的像素資訊和剪裁好的紋理材質遞交給處于GPU後端的光栅化處理單元,将二者混合填充為最終畫面輸出,此外遊戲中霧化、景深、動态模糊和抗鋸齒等後處理特效也是由光栅化處理單元完成的。

四是光線追蹤核心。是一種補充性的渲染技術,主要通過計算光和渲染物體之間的反應得到正确的反射、折射、陰影即全局照明等結果,渲染出逼真的模拟場景和場景内對象的光照情況。通過采樣BVH算法,用來計算射線(光線、聲波)與物體三角形求交,與傳統硬體相比,RTCore可以實作幾何數量級的BVH計算效率提升,讓實時光線追蹤成為可能。

五是張量核心。可提升GPU的渲染效果,同時增強AI計算能力。張量核心通過深度學習超級采樣(DLSS)提高渲染的清晰度、分辨率和遊戲幀速率,同時對渲染畫面進行降噪處理以實時清理和校正光線追蹤核心渲染的畫面,提升整體渲染效果。同時張量核心通過低精度混合運算,極大加速了AI運算速度,讓計算機視覺、自然語言處理、語言識别和文字轉化、個性化推薦等過去CPU難以實作的功能也得以高速完成。

四、GPU市場分析。

(一)GPU市場規模及預測。根據Verified Market Research的預測,2020年GPU全球市場規模為254億美元,預計到2028年将達到2465億美元,行業保持高速增長,CAGR為32.9%,2023年GPU全球市場規模預計為595億美元。

(二)PC顯示卡市場

1.獨立顯示卡市場開始逐漸回暖。根據Jon Peddie Research的資料,2022年獨立GPU出貨量下降至3808萬台,同比下降22.5%,22Q3單季度出貨690萬台,同比下降45.7%,是十年以來最大的一次下滑,獨立顯示卡出貨情況22Q4開始逐漸轉暖。

2.內建顯示卡出貨情況仍然不容樂觀。2022年內建GPU出貨量為2.83億台,同比下滑29.8%。疫情期間的居家辦公需求帶動了筆記本電腦的消費增長,內建顯示卡需求的激增一定程度上過早消耗了市場需求。後疫情時代,筆記本電腦端需求減弱,疊加供應商的過剩庫存導緻內建顯示卡出貨不斷走低。

3.2022年獨立顯示卡出貨遭遇巨大下滑的原因有三點,一是受宏觀經濟影響,個人電腦市場處于下行周期,二是部分獨立GPU參與虛拟貨币挖礦,以太坊合并對獨立GPU出貨造成巨大沖擊,三是下遊闆卡廠商開啟降庫存周期。拟貨币數量越大獲得記賬收益的機率越高。以太坊全面合并後不再需要購入大量顯示卡、投入計算資源用于挖礦,是顯示卡挖礦市場的重要轉折點。

(三)GPU在資料中心領域的應用潛力巨大。

GPU被廣泛應用于人工智能的訓練、推理、高性能計算(HPC)等資料中心領域。

1.預訓練大模型帶來的算力需求驅動人工智能伺服器市場快速增長。巨量化是人工智能近年來發展的重要趨勢,巨量化的核心特點是模型參數多,訓練資料量大。Transformer模型的提出開啟了預訓練大模型的時代,大模型的算力需求提升速度顯著高于其他AI模型,為人工智能伺服器的市場增長注入了強勁的驅動力。根據Omdia資料顯示,人工智能伺服器是伺服器行業中增速最快的細分市場,CAGR為49%。

2.戰略需求推動GPU在高性能計算領域穩定增長。高性能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、海量資料處理等業務的計算需求,如科學研究、氣象預報、計算模拟、軍事研究、生物制藥、基因測序等,極大縮短了海量計算所用的時間。高性能計算已成為促進科技創新和經濟發展的重要手段。

3.大模型帶來人工智能算力的旺盛需求。

自然語言大模型參數巨量化是行業發展趨勢所向。以ChatGPT為代表的人工智能模型表現出高度的智能化和拟人化,背後的因素在于自然語言大模型表現出來的湧現能力和泛化能力。當模型參數到達千億量級後,可能呈現性能的跨越式提升,稱之為湧現能力;在零樣本或者少樣品學習情景下,模型仍表現較強的遷移學習能力,稱之為泛化能力。兩種能力都與模型參數量密切相關,人工智能模型參數巨量化是重要的行業發展趨勢。

預訓練大模型進入千億參數時代,模型訓練算力需求邁上新台階。自GPT-3模型之後,大規模的自然語言模型進入了千億參數時代,2021年之後湧現出諸多千億規模的自然語言模型,模型的訓練算力顯著增加。ChatGPT模型參數量為1750億,訓練算力需求為3.14*1023flops,目前各種預訓練語言模型還在快速的更新疊代,不斷重新整理自然語言處理任務的表現記錄,單一模型的訓練算力需求也不斷突破新高。

4.大模型帶來AI晶片需求的顯著拉動。

大模型的算力需求主要來自于三個環節,一是預訓練得到大模型的訓練環節。該環節中,算力呈現海量需求且集中訓練的特點,大模型通常在數天到數周内在雲端完成訓練。模型的訓練算力與模型參數量、訓練資料量有關,以ChatGPT的訓練為例,單次模型訓練需要2000張英偉達A100顯示卡不間斷訓練27天。二是适應下遊領域時進一步fine-tune環節。算力需求取決于模型的泛化能力以及下遊任務的難度情況。

三是大模型日常運作時的推理環節。大模型的日常運作中每一次使用者調用都需要一定的算力和帶寬作為支撐,單次推理的計算量為2N(N為模型參數量)。

例如1750億參數的ChatGPT模型1ktokens的推理運算量為2*1750*108*103=3.5*1014flops=350 Tflops。

近期ChatGPT官網吸引的每日訪客數量接近5000萬,每小時平均通路人數約210萬人,若高峰時期同時線上人數450萬人,一小時内每人問8個問題,每個問題回答200字,測算需要14000塊英偉達A100晶片做日常的算力支撐。大模型在融入搜尋引擎或以app形式提供其他商業化服務過程中,其AI晶片需求将得到進一步的顯著拉動。

5. AI伺服器是GPU市場規模增長的重要支撐。

根據Omdia資料顯示,2019年全球人工智能伺服器市場規模為23億美金,2026年将達到376億美金,CAGR為49%。根據IDC資料顯示,2020年中國資料中心用于AI推理的晶片市場佔有率已經超過50%,預計到2025年,用于AI推理的工作負載的晶片份額将達到60.8%。

人工智能伺服器通常選用CPU與加速晶片組合來滿足高算力要求,常用的加速晶片有GPU、現場可程式設計門陣列(FPGA)、專用內建電路(ASIC)、神經拟态晶片(NPU)等。GPU憑借其強大的并行運算能力、深度學習能力、極強的通用性和成熟的軟體生态,成為資料中心加速的首選,90%左右的AI伺服器采用GPU作為加速晶片。

受雲廠商資本開支影響AI伺服器市場或将短期增速放緩。

北美雲廠商資本開支有所放緩。人工智能伺服器多采取公有雲、私有雲加本地部署的混合架構,以北美四家雲廠商資本開支情況來跟蹤人工智能伺服器市場需求變動,2022年四家雲廠商資本開支合計1511億美元,同比增長18.5%。Meta預計2023年資本開支的指引為300-330億美元之前,與2022年基本持平,低于此前22Q3預計的340億到390億美元;谷歌預計2023年資本開支将于2022年基本持平,但是會加大AI及雲服務的建設投資。

信骅科技短期營收下滑有所緩解。作為全球最大的BMC晶片企業,信骅科技(Aspeed)的營收變化情況一般領先雲廠商資本開支一個季度,其月度營收資料可以作為雲廠商資本開支的前瞻名額,信骅科技近期營收下滑有所緩解。

6. GPU在超算伺服器中的市場規模保持穩定增長。GPGPU在高性能計算領域滲透率不斷提升。在高性能計算領域,CPU+GPU異構協同計算架構得到越來越多的應用,全球算力前500的超級計算機中,有170套系統采用了異構協同計算架構,其中超過90%以上的加速晶片選擇了英偉達的GPGPU晶片。

GPU在超算伺服器中的市場規模保持穩定增長。根據Hyperion Research資料,全球超算伺服器的市場規模将從2020年的135億美金上升到2025年的199億美金,按照GPU在超算伺服器中成本占比為27.3%核算,GPU在超算伺服器中的市場規模将從2020年的37億上升至2025年的54億美金,CAGR為8%。

7.自動駕駛領域GPU市場保持高成長性

在自動駕駛領域,各類自動駕駛晶片得到廣泛的應用。根據Yole資料,全球自動駕駛市場2025年将達到780億美金,其中用于自動駕駛的AI晶片超過100億美元。

自動駕駛GPU市場保持較高高成長性。根據ICVTank的自動駕駛滲透資料,假設GPU在L2中滲透率15%,在L3-L5中滲透率50%,估算得到GPU在自動駕駛領域的市場規模,整體規模将從2020年的7.1億美元上升至2025年的44億美金,CAGR為44%。

五、産業鍊及競争格局分析

(一)GPU産業鍊。GPU行業的産業鍊主要涉及三個環節:設計、制造、封裝。供給模式有IDM、Fab+Fabless和Foundry三種。IDM模式指将GPU産業鍊的三個環節整體化,充分結合自主研發和外部代工,集設計、制造、封裝為一體,公司垂直整合GPU整體産業鍊。Fab+Fabless是充分發揮各企業比較優勢,僅負責晶片電路設計,将産業鍊其他環節外包,分散了GPU研發和生産的風險。Foundry模式是公司僅負責晶片制造環節,不負責上遊設計和下遊封裝,可以同時為多家上遊企業服務。

(二)競争格局。全球GPU市場中,基本被Nvidia、Intel和AMD三家壟斷。據JPR統計,全球PCGPU在2022年Q2出貨量達到8400萬台,同比下降34%,預計2022-2026年GPU複合增長率為3.8%。從市場格局來看,Nvidia、Intel和AMD三家在2022年Q2市場占有率分别為18%、62%和20%,Intel憑借其內建顯示卡在桌面端的優勢占據最大的市場佔有率。

獨顯市場中,Nvidia占據領先地位。不同于整體市場,在獨顯市場中,Nvidia與AMD雙雄壟斷市場,其2022年Q2市占率分别約為80%和20%,可以看到近年來Nvidia不斷鞏固自己的優勢,其獨立顯示卡市占率整體呈現上升趨勢。

國内市場來看,國産GPU賽道持續景氣。近年來,國産GPU公司如雨後春筍般湧現,璧韌科技、摩爾線程、芯動科技、天數智能等公司紛紛釋出新品。但是IP授權來看,國内主要的GPU創業公司,如芯動、摩爾線程、壁仞等采用的是Imagination IP或芯原授權的IP。但是IP授權來看,國内主要的GPU創業公司,如芯動、摩爾線程、壁仞等采用的是Imagination IP或芯原授權的IP。芯動科技釋出的首款高性能4K級顯示卡GPU晶片“風華1号”,使用了Imagination的IMG B系列GPU IP,是Imagination IP在中國市場的首個高端GPU應用。據報道,摩爾線程晶片設計的關鍵部分也來自Imagination Technologies。

Imagination是一家總部位于英國,緻力于打造半導體和軟體知識産權(IP)的公司。公司的圖形、計算、視覺和人工智能以及連接配接技術可以實作出衆的PPA(功耗、性能和面積)名額、強大的安全性、快速的上市時間和更低的總體擁有成本(TCO)。2017年9月,私募投資公司Canyon Bridge以5.5億英鎊收購Imagination,Canyon Bridge其背後投資方為中國國新。

(三)美國對華禁令如何應對

根據路透社報道,2022年8月31日,美國政府要求英偉達的A100、H100系列和AMD的MI250系列及未來的高端GPU産品是否可以售賣給中國客戶,需要獲得美國政府的許可。這幾款晶片均為用于通用計算的高端GPGPU,通常應用在人工智能計算的雲端訓練和推理場景和超級計算機中,在中國的客戶多為雲計算廠商及高校和科研院所。

為應對封鎖,短期來看。可以選擇英偉達和AMD的還沒有被禁止的中低性能GPU晶片。對于雲端計算,算力既可以通過産品更新得以提升,也可以通過增加計算卡的數量進行提升,是以短期内可以通過使用多個算力較低的CPU、GPU和ASIC晶片來複制高端GPU晶片的處理能力,基本可以滿足雲端訓練和高性能計算的要求。

長期來看,選擇國産GPU進行替代。雖然晶片是算力的主要來源和最根本的物質基礎,但是算力的生産、聚合、排程和釋放是一個完整過程,需要複雜系統的軟硬體生态共同配合,才能實作“有效算力”。是以短期内可能會因為無法相容在人工智能領域廣泛使用的CUDA架構而遭遇替換困難,但是長期來看,國産CPU、通用GPU、AI晶片将獲得前所未有的發展機會,通過軟硬體技術提升,逐漸實作高端GPU領域的國産化替代。

六、相關公司。

(一)國外公司。一是英偉達。英偉達是一家專注于GPU半導體設計的企業。公司成立于1993年,1999年英偉達推出GeForce256晶片,并首次定義了GPU的概念;随後創新性的提出CUDA架構,讓此前隻做3D渲染的GPU實作通用計算功能;進入2010年代後,英偉達在AI行業發展初期市場皆不看好的情況下,前瞻性預見了GPU在AI市場的應用并全力以赴開展相關布局;目前,公司以資料中心、遊戲、汽車、專業視覺四大類晶片為收入基礎,完成了硬體、系統軟體、軟體平台、應用架構全棧生态的建設。

追溯公司曆史,英偉達以技術創新為基,持續推動GPU行業的發展,可以稱得上是GPU時代創始者。英偉達公司發展史可簡單劃分為四個階段:一是蓄力階段:1993年黃仁勳聯合Sun Microsystem公司兩位年輕工程師共同創立英偉達,早期緻力于圖形晶片的研發。1997年公司推出RIVA128,這是公司第一款真正意義上取得成功的産品。二是崛起階段:1999年公司推出GeForce256并定義GPU晶片,此英偉達走上了重塑顯示卡行業的道路。三是制霸階段:2006年英偉達創新性推出CUDA架構。CUDA是英偉達基于自有GPU的一個并行計算平台和程式設計模型。CUDA帶來兩方面巨大影響,于GPU行業而言,CUDA使得隻做3D渲染的GPU得以實作通用計算功能,而對于英偉達公司本身來說,其在早期大力推廣CUDA,并對CUDA進行了程式設計語言擴充,使得開發人員能夠輕易地對GPU進行程式設計,目前CUDA是最主流的兩個GPU程式設計庫之一,奠定了英偉達GPU生态得以成型的基礎。四是騰飛階段:押注AI,資料中心業務開啟第二成長曲線。2012年Alex Krizhevsky利用GPU進行深度學習,通過幾天訓練在ImageNet競賽中獲得冠軍,其将深度卷積神經網絡AlexNet的準确率提高了10.8%,震撼了學術界,從此開啟GPU應用于深度學習的大門,其使用的正是NVIDIA GTX 580GPU晶片和CUDA計算模型。此後,英偉達GPU和CUDA模型成為深度學習(尤其是訓練環節)的首選晶片,而英偉達也順勢推出海量專用于AI的晶片及配套産品,從顯示卡硬體公司華麗轉型成為人工智能公司。

英偉達平均每兩年推出一代晶片架構、每半年推出一款新的産品,多年以來堅持不辍。從2009年的Fermi架構到目前的Hopper架構,公司産品性能穩步提升,并始終引領GPU晶片技術發展。

目前,英偉達GPU晶片已形成覆寫資料中心、遊戲、專業視覺和汽車業務幾大場景的晶片産品陣列,其中消費級GPU和資料中心GPU是最核心場景。NVIDIA資料中心業務自2017年開始快速擴張,先後釋出V100、A100等高性能通用計算顯示卡,為全球提供頂尖的AI算力。最新産品代際下NVIDIA已經在2022年9月20日推出GeForce 40系列首款産品。

二是AMD,美國超威半導體公司(AMD)。創立于1969年,專門為計算機、通信和消費電子行業提供各類微處理器以及提供閃存和低功率處理器方案,公司是全球領先的CPU、GPU、APU和FPGA設計廠商,掌握中央處理器、圖形處理器、閃存、晶片組以及其他半導體技術,具體業務包括資料中心、用戶端、遊戲、嵌入式四大部分。公司采用Fabless研發模式,聚焦于晶片設計環節,制造和封測環節則委托給全球專業的代工廠處理。目前全球CPU市場呈Intel和AMD寡頭壟斷格局,Intel占主導地位。在獨立GPU市場中,主要是英偉達(NVIDIA)、AMD進行角逐,Intel目前憑借其銳炬Xe MAX産品也逐漸進入獨立GPU市場。

公司營收主要包括四部分。資料中心業務主要包括用于資料中心伺服器的各類晶片産品;用戶端業務主要包括用于PC的各類處理器晶片;遊戲業務主要包括獨立GPU及其他遊戲産品開發服務;嵌入式業務主要包括适用于邊緣計算的各類嵌入式計算晶片。

AMD可以提供內建GPU和獨立GPU兩類PC GPU。內建GPU主要被運用在桌上型電腦和筆記本的APU産品、嵌入式等産品中,主要用于遊戲、移動裝置、伺服器等應用。APU帶有內建的闆載GPU,CPU和GPU的高度融合在一起協同計算、彼此加速,相比于獨立GPU更具成本效益優勢。

獨立GPU為Radeon系列。AMD的Radeon系列獨立GPU按推出時間先後順序可以分為RX500系列、Radeon7、RX5000系列、RX6000系列、RX7000系列。Radeon系列顯示卡具備一定的成本效益優勢,市場佔有率有進一步上升的空間。

RDNA3架構采用5nm工藝和chiplet設計,比RDNA2架構有54%每瓦性能提升,包括2.7倍AI吞吐量、1.8倍第二代光線追蹤技術,5.3TB/s的峰值帶寬、4K480Hz和8K165HZ的重新整理率等。AMD預計2024年推出RDNA4架構,将采用更為先進的工藝制造。

2018年,AMD推出用于資料中心的Radeon Instinct GPU加速晶片,Instinct系列基于CDNA架構。在通用計算領域,最新的CDNA2架構相比CDNA1架構,實作計算能力和互聯能力的顯著提升,MI250X采用CDNA2架構。在向量計算方面,CDNA2對向量流水線進行了優化,FP64的工作頻率與FP32相同,具備同樣的向量計算能力。在矩陣計算方面,CDNA2引入了新的矩陣乘指令級,特别适用于FP64精度,此外MattrixCore還支援FP32、FP16(BF16)和INT8的計算精度。在互聯方面,通過AMD infinityfabric接口實作加速器之間的P2P或者I/O通信,提供800GB/s的總理論帶寬,相比上一代提升了235%。

AMD ROCm是2015年AMD公司為了對标CUDA生态而開發的一套用于HPC和超大規模GPU計算提供的開源軟體開發平台。ROCm之于AMD GPU相當于CUDA之于英偉達GPU。

AMD ROCm是一個開放式軟體平台,為追求高靈活性和高性能而建構,針對加速式計算且不限定程式設計語言,讓機器學習和高性能計算社群的參與者能夠借助各種開源計算語言、編譯器、庫和重新設計的工具來加快代碼開發,适合大規模計算和支援多GPU計算,其創立目标是建立可替代CUDA的生态。

(二)國内公司。

1.海光資訊。成立于2014年,主營業務是研發、設計和銷售應用于伺服器、工作站等計算、儲存設備中的高端處理器。産品包括海光通用處理器(CPU)和海光協處理器(DCU),目前已經研發出多款新能達到國際同類主流産品的高端CPU和DCU産品。2018年10月,公司啟動深算一号DCU産品設計,目前海光DCU系列深算一号已經實作商業化應用,2020年1月,公司啟動了第二代DCU深算二号的産品研發工作。

海光DCU屬于GPGPU的一種,海光DCU的構成與CPU類似,其結構邏輯相CPU簡單,但計算單元數量較多。海光DCU的主要功能子產品包括計算單元(CU)、片上網絡、高速緩存、各類接口控制器等。深度計算處理器(Deep-learning Computing Unit,DCU)是公司基于通用的GPGPU架構,設計、釋出的适合計算密集型和運算加速領域的一類協處理器,定義為深度計算處理器DCU。相容通用的“類CUDA”環境以及國際主流商業計算軟體和人工智能軟體,軟硬體生态豐富,可廣泛應用于大資料處理、人工智能、商業計算等應用領域。海光8100采用先進的FinFET工藝,典型應用場景下性能名額可以達到國際同類型高端産品的同期水準,在國内處于領先地位。2021年下半年DCU正式實作商業化應用。

海光資訊DCU協處理器全面相容ROCm GPU計算生态,由于ROCm和CUDA在生态、程式設計環境等方面具有高度的相似性,CUDA使用者可以以較低代價快速遷移至ROCm平台,是以ROCm也被稱為“類CUDA”。是以,海光DCU協處理器能夠較好地适配、适應國際主流商業計算軟體和人工智能軟體,軟硬體生态豐富,可廣泛應用于大資料處理、人工智能、商業計算等計算密集類應用領域,主要部署在伺服器叢集或資料中心,為應用程式提供高性能、高能效比的算力,支撐高複雜度和高吞吐量的資料處理任務。

2. 景嘉微。長沙景嘉微電子股份有限公司成立于2006年,2015年推出首款國産GPU,是國内首家成功研制具有完全自主知識産權的GPU晶片并實作工程應用的企業,2016年在深交創業闆成功上市。公司業務布局圖形顯示、圖形處理晶片和小型專用化雷達領域,産品涵蓋內建電路設計、圖形圖像處理、計算與存儲産品、小型雷達系統等方向。

公司GPU研發曆史悠久,技術積澱深厚。公司成立之初承接神舟八号圖形加速任務,為圖形處理器設計打下堅實基礎;公司2007年自主研發成功VxWorks嵌入式作業系統下M9晶片驅動程式,并解決了該系統下的3D圖形處理難題和漢字顯示瓶頸,具備了從底層上駕馭圖形顯控産品的能力。2015年具有完全自主知識産權的GPU晶片JM5400問世,具備高性能、低功耗的特點;此後公司不斷縮短研發周期,JM7200在設計和性能上有較大進步,由專用市場走向通用市場;JM9系列定位中高端市場,是一款能滿足高端顯示和計算需求的的通用型晶片。

JM7200采用28nm CMOS工藝,核心時鐘頻率最大1300MHz,存儲器記憶體為4GB,支援OpenGL1.5/2.0,能夠高效完成2D、3D圖形加速功能,支援PCIe2.0主機接口,适配國産CPU和國産作業系統平台,可應用于個人辦公電腦顯示系統以及高可靠性嵌入式顯示系統。JM9系列面向中高端通用市場,可以滿足地理資訊系統、媒體處理、CAD輔助設計、遊戲、虛拟化等高性能顯示需求和人工智能計算需求。2022年5月,JM9系列第二款晶片已完成初步測試工作。

3.壁仞科技。公司主營業務為高端通用智能計算晶片。壁仞科技創立于2019年,公司緻力于開發原創性的通用計算體系,建立高效的軟硬體平台,同時在智能計算領域提供一體化的解決方案。從發展路徑上,公司将首先聚焦雲端通用智能計算,逐漸在人工智能訓練和推理、圖形渲染等多個領域趕超現有解決方案,實作國産高端通用智能計算晶片的突破。2022年3月,公司首款通用GPU晶片BR100成功點亮,後于2022年8月正式釋出,創下全球算力的新紀錄。

公司的産品體系主要涵蓋BR100系列通用GPU晶片、BIRENSUPA軟體開發平台以及開發者雲三大闆塊。其中,BR100系列通用GPU晶片是公司的核心産品,目前主要包括BR100、BR104兩款晶片。BR100系列針對人工智能(AI)訓練、推理,及科學計算等更廣泛的通用計算場景開發,主要部署在大型資料中心,依托“壁立仞”原創架構,可提供高能效、高通用性的加速計算算力。

BR100系列在性能、安全等方面具備多項核心優勢。公司緻力于打造性能先進、競争力強的GPU晶片,并為此采取了大量技術措施,具體包括:支援7nm制程,并創新性應用Chiplet與2.5D CoWoS封裝技術,兼顧高良率與高性能;支援PCIe 5.0接口技術與CXL通信協定,雙向帶寬最高達128GB/s等。2022年公司正式推出壁砺™100,其峰值算力達到國際廠商在售旗艦的3倍以上,超越了國際廠商同類的在售旗艦産品,競争優勢十分顯著。同時,在安全方面,BR100系列最高支援8個獨立執行個體,每個執行個體實體隔離并配備獨立的硬體資源,可獨立運作。

3. 摩爾線程。摩爾線程是一家以GPU晶片設計為主的內建電路高科技公司。公司誕生于2020年10月,專注于研發設計全功能GPU晶片及相關産品,支援3D高速圖形渲染、AI訓練推理加速、超高清視訊編解碼和高性能科學計算等多種組合工作負載,兼顧算力與算效,為中國科技生态合作夥伴提供強大的計算加速能力。在“元計算”賦能下一代網際網路的願景下,公司将持續創新面向元計算應用的新一代GPU,建構融合視覺計算、3D圖形計算、科學計算及AI計算的綜合計算平台,建立基于雲原生GPU計算的生态系統,助力驅動數字經濟發展。

公司的産品體系主要包括:MTTS60、MTTS2000、MTTS100等硬體産品;MTSmart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR等軟體産品;以及MUSA統一系統架構、DIGITALME數字人解決方案、元計算應用解決方案等其他産品。

MTTS60顯示卡由基于MUSA架構的GPU蘇堤核心晶片制成,采用12nm制程,包含2048個MUSA核心,單精度算力最高可達6TFlops,配置8GB顯存,基于MUSA軟體運作庫和驅動程式等軟體工具。在先進硬體規格的支撐下,MTTS60顯示卡能夠在不同應用場景中展現多重優勢:豐富圖形API、4K/8K超高清顯示、領先的硬體視訊編解碼能力、通用AI功能支援等。

MTTS2000采用12nm制程,使用4096個MUSA核心,最大配置32GB顯存,單精度算力最高可達到12TFlops,支援H.264、H.265、AV1多路高清視訊編解碼,以及廣泛的AI模型算法加速。同時,MTTS2000還采用了被動散熱、單槽設計,以滿足資料中心高密度GPU配置方式。目前,MTTS2000已經能夠相容X86、ARM等CPU架構以及主流Linux作業系統發行版,并與浪潮、新華三、聯想、清華同方等多家伺服器合作夥伴建立了合作關系,産品生态持續完善。作為公司面向資料中心領域的GPU晶片,除了生态外,MTTS2000還具備全功能GPU、豐富的圖形API支援、綠色計算等優勢。基于多元算力、生态完善等優勢,MTTS2000有望助力公司賦能PC雲桌面、安卓雲遊戲、音視訊雲處理、雲端Unreal/Unity應用渲染和AI推理計算等多類應用場景。

七、未來展望。

(一)未來部分廠商有望迎來爆發式增長。

GPU作為資料計算核心底座,戰略地位高,國家高度重視,中美科技摩擦背景下,自主可控勢在必行。從成長性次元看,全球市場空間廣闊,國内市場規模也達到百億量級,同時伴随下遊需求提升而加速提升。在數字化驅動總需求提升背景下,疊加國産化趨勢,國産GPU産業迎來總量和份額雙提升機遇,國産GPU廠商發展提速。大市場需求下,GPU國産化空間廣闊,優秀廠商稀缺性凸顯,加速成長,部分廠商有望爆發式增長。

(二)中國GPU市場将快速增長,有望為相應細分領域帶來更快的成長。

龐大的需求加逐漸成熟的産業預示着廣闊的發展空間。在人工智能、雲遊戲、自動駕駛等新場景和需求爆發式增長的背景下,能夠判斷中國GPU市場将快速增長,相比于PC市場,新增市場空間或更大。相比于PC等傳統IT應用場景,中國在人工智能、自動駕駛領域與強國處于同一競争水準,且中國龐大市場有望為相應細分領域帶來更快的成長。