随着ChatGPT的出圈，大家可以明顯感受到全社會對于生成式人工智能技術的廣泛關注，随着大模型的數量和模型參數量不斷激增，對算力的需求也越來越高。

根據《中國算力發展指數白皮書》中的定義，算力是裝置通過處理資料，實作特定結果輸出的計算能力。

算力實作的核心是CPU、GPU等各類計算晶片，并由計算機、伺服器和各類智能終端等承載，海量資料處理和各種數字化應用都離不開算力的加工和計算。

那麼，不同的算力晶片分别适用于何種應用場景，不同的算力晶片又有哪些差別？

01

不同場景需要何種算力晶片

小至耳機、手機、PC，大到汽車、網際網路、人工智能、資料中心、超級計算機、航天火箭等，“算力”都在其中發揮着核心作用，而不同的算力場景，對晶片的要求也各不同。

資料中心作為數字時代的核心基礎設施，承載着大量的資料處理、存儲和傳輸任務。是以，它們需要強大的算力來應對各種複雜的計算需求。資料中心和超算需要高于1000TOPS的高算力晶片。目前，超算中心算力已經進入E級算力（百億億次運算每秒）時代，并正在向Z（千E）級算力發展。資料中心對于晶片的低功耗、低成本、可靠性以及通用性的要求都極高。

智能自動駕駛涉及人機互動、視覺處理、智能決策等衆多方面，車載傳感器（雷射雷達、攝像頭、毫米波雷達等）的不斷增加，資料處理的實時性、複雜性和準确性要求不斷提高，都對車載算力提出了更高的要求。通常，業内認為實作L2級自動輔助駕駛需要的算力在10TOPS以下，L3級需要30~60TOPS，L4級需要超過300TOPS，L5級需要超過1000TOPS，甚至4000+TOPS。是以自動駕駛領域的車載算力是遠遠大于生活中常見的手機、電腦的計算能力。比如蔚來ET5的處理器算力達1016TOPS、小鵬P7的處理器算力達508TOPS。在智能駕駛中，安全至關重要，是以該場景對算力晶片的可靠性有着極高的要求，對于晶片通用性的要求也較高，對于功耗和成本的要求就相對沒有那麼苛刻。

為了應對目前視訊處理、人臉識别以及異常檢測等複雜任務的挑戰，同時確定系統在未來技術更新和拓展時擁有充足的計算資源。智能安防系統需要大約4-20TOPS的算力，這一數值雖然相較資料中心要小得多，但是也足以保障智能安防系統的高效穩定運作。随着AI安防進入下半場，算力的重要性愈發凸顯，這一數值也在不斷上漲。智能安防對低成本和可靠性的需求比較高，功耗和通用性的要求則相對中等。

在智能移動終端中，可穿戴裝置等小型産品對算力的需求相對不高，但智能手機、筆記本電腦等産品對算力的需求正在大幅提升。比如，前幾年的iPhone12搭載的A14晶片算力約為11TOPS，小米10手機所配備的骁龍865晶片算力則為15TOPS。然而，随着AI技術在智能手機中的日益內建和普及，骁龍888的算力已達到26TOPS，之後的8Gen1、8Gen2等晶片更是算力更是做了顯著提升。智能移動終端也是一個對低功耗和低成本有着高要求的應用場景，對可靠性的要求相對較高，對通用性則沒有太多的限制。

02

主流的算力晶片及其特征

當下的基礎算力主要由基于CPU晶片的伺服器提供，面向基礎通用計算。智能算力主要基于GPU、FPGA、ASIC等晶片的加速計算平台提供，面向人工智能計算。高性能計算算力主要基于融合CPU晶片和GPU晶片打造的計算叢集提供，主要面向科學工程計算等應用場景。

CPU是傳統通用計算之王，包含運算器、控制器、存儲器等主要部分。資料在存儲器中存儲，控制器從存儲器中擷取資料并交給運算器進行運算，運算完成後再将結果傳回存儲器。CPU的特點是通用性強，可處理各種類型的計算任務，但其計算效率不及專門針對特定任務設計的晶片。

GPU最初用于加速圖形渲染，也被稱為圖形處理的利器。近年來，GPU在深度學習等領域表現出色，被廣泛應用于人工智能計算。GPU的特點是具有大量并行計算單元，可同時處理大量資料，使其在并行計算任務中具有很高的效率。但GPU的通用性不及CPU，僅适用于特定類型計算任務。

ASIC是一種專為特定任務而設計的晶片。它通過硬體實作算法，可在特定任務中實作極高的計算效率和能效。ASIC的特點是針對性強，僅适用于特定任務，但其計算效率和能效遠超CPU和GPU，适用于規模大或成熟度高的産品。

FPGA利用門電路直接運算、速度較快。相比于GPU，FPGA具有更高的處理速度和更低的能耗，但相比相同工藝條件下的ASIC，FPGA仍有不及，不過FPGA可以進行程式設計，相比ASIC也更加靈活。FPGA适用于快速疊代或小批量産品，在AI領域，FPGA晶片可作為加速卡加速AI算法的運算速度。

GPGPU即通用圖形處理器，其中第一個“GP”通用目的，而第二個“GP”則表示圖形處理，主要目标是利用GPU的并行計算能力來加速通用計算任務。可以通俗的将GPGPU了解為一個輔助CPU進行非圖形相關程式的運算的工具。适用于大規模并行計算場景，比如科學計算、資料分析、機器學習等場景。

03

GPU是AI的最優解，但未必是唯一解

在ChatGPT引發的人工智能熱潮下，最受歡迎的莫過于GPU，為了發展AI，全球領先的科技巨頭都在争相囤積英偉達的GPU。GPU因何受到AI時代諸多廠商的青睐？

原因很簡單，因為AI計算和圖形計算類似，包含大量的高強度并行計算任務。

具體解釋為，訓練和推理是AI大模型的基石。在訓練環節，通過輸入大量的資料，訓練出一個複雜的神經網絡模型。在推理環節，利用訓練好的模型，使用大量資料推理出各種結論。

而神經網絡的訓練和推理過程涉及一系列具體的算法，如矩陣相乘、卷積、循環層處理以及梯度運算等。這些算法通常可以高度并行化，也就是說，它們可以被分解為大量可以同時執行的小任務。

而GPU擁有大量的并行處理單元，可以快速地執行深度學習中需要的矩陣運算，進而加速模型的訓練和推理。

目前，大部分企業的AI訓練，采用的都是英偉達的GPU叢集。如果進行合理優化，一塊GPU卡，可以提供相當于數十台甚至上百台CPU伺服器的算力。AMD、英特爾等企業也正在積極提升其技術實力，争取市場佔有率。中國頭部廠商包括景嘉微、龍芯中科、海光資訊、寒武紀、芯原股份等。

可以看到，在AI領域，GPU一騎絕塵，正如英偉達将自身定義為人工智能上司者一樣，可以看到業内目前幾乎所有關于人工智能的應用背後都離不開GPU的身影。

這時候可能會有人發問，在AI盛行的當下，單憑GPU就足夠了嗎？GPU是否會獨占未來AI市場的鳌頭，成為無可争議的寵兒？

筆者認為，非也。GPU固然是當下的最優解，但未必是唯一解。

CPU可以發揮更多的作用

GPU雖然目前在AI領域占據了主導地位，但是它也面臨着一些挑戰和局限。比如說，GPU的供應鍊問題導緻了價格上漲和供應不足，這對于AI開發者和使用者來說都是一個負擔。而CPU則有着更多的競争者和合作夥伴，可以促進技術的進步和降低成本。而且，CPU也有着更多的優化技術和創新方向，可以讓CPU在AI領域發揮出更大的作用。

一些更為精簡或小巧的模型，在傳統CPU上同樣能夠展現出卓越的運作效率，而且往往更加經濟實惠、節能環保。這證明了在選擇硬體時，需根據具體應用場景和模型複雜度來權衡不同處理器的優勢。比如HuggingFace公司的首席AI布道者JulienSimon示範的一個基于IntelXeon處理器的語言模型Q8-Chat。這個模型有70億個參數，可以在一個32核心的CPU上運作，并提供一個類似于OpenAIChatGPT的聊天界面，可以快速地回答使用者的問題，并且速度比ChatGPT快得多。

除了運作超大規模的語言模型，CPU還可以運作更小更高效的語言模型。這些語言模型通過一些創新的技術，可以大幅減少計算量和記憶體占用，進而适應CPU的特點。這也意味着CPU在AI領域并沒有被完全邊緣化，而是有着不容忽視的優勢和潛力。

全球CPU市場由英特爾、AMD雙寡頭壟斷，合計市場佔有率超過95%。目前，龍芯、申威、海光、兆芯、鲲鵬、飛騰六大國産CPU廠商快速崛起，加速推動了國産CPU的發展程序。

CPU＋FPGA、CPU＋ASIC也富有潛力

不僅如此，由于AI加速伺服器異構的特點，市場上除了CPU+GPU的組合方式之外，還有其它多種多樣的架構，例如：CPU＋FPGA、CPU＋ASIC、CPU＋多種加速卡。

技術的變革是迅速的，未來确有可能出現更加高效、更加适合AI計算的新技術。CPU＋FPGA、CPU＋ASIC便是未來的可能之一。

CPU擅長邏輯控制和串行處理，而FPGA則具有并行處理能力和硬體加速特性。通過結合兩者，可以顯著提升系統的整體性能，特别是在處理複雜任務和大規模資料時。FPGA的可程式設計性使得其可以根據具體應用場景進行靈活配置和定制。這意味着CPU+FPGA架構可以适應各種不同的需求，從通用計算到特定應用的加速，都可以通過調整FPGA的配置來實作。

而ASIC是專門為特定應用設計的內建電路，是以它在性能和功耗上通常都經過了高度優化。與CPU結合使用時，可以確定系統在處理特定任務時具有出色的性能和效率。此外，ASIC的設計是固定的，一旦制造完成，其功能就不會改變。這使得ASIC在需要長時間穩定運作和高可靠性的場景中表現出色。

全球FPGA晶片市場主要由賽靈思、英特爾雙寡頭壟斷，合計占有率高達87%。國内主要廠商包括複旦微電、紫光國微和安路科技。國外谷歌、英特爾、英偉達等巨頭相繼釋出了ASIC晶片。國内寒武紀、華為海思、地平線等廠商也都推出了深度神經網絡加速的ASIC晶片。

GPGPU能使用更進階别的程式設計語言，在性能和通用性上更加強大，也是目前AI加速伺服器的主流選擇之一。GPGPUDE核心廠商主要包括NVIDIA、AMD、壁仞科技、沐曦和天數智芯等。

04

中國算力，規模如何？

根據IDC的預測，未來3年全球新增的資料量将超過過去30年的總和，到2024年，全球資料總量将以26%的年均複合增長率增長到142.6ZB。這些将使得資料存儲、資料傳輸、資料處理的需求呈現指數級增長，不斷提升對算力資源的需求。另外，面向人工智能等場景，大規模的模型訓練和推理也需要強大的高性能算力供應。

近年來，中國算力基礎設施建設取得顯著成效。

到2023年底，全國在用資料中心機架總規模超過810萬标準機架，算力總規模達到230百億億次/秒（EFLOPS），算力正加速向政務、工業、交通、醫療等各行業各領域滲透。同時，在“東數西算”工程與全國一體化算力網的布局下，中國算力網——智算網絡一期已經上線，全國算力“一張網”已具雛形。

政策面，中國陸續出台《全國一體化大資料中心協同創新體系算力樞紐實施方案》、《算力基礎設施高品質發展行動計劃》、《“十四五”數字經濟發展規劃》等一系列檔案推動算力基礎設施建設。此外，國家推動多地智算中心建設，由東向西逐漸擴充。目前中國超過30個城市正在建設或提出建設智算中心，據科技部出台政策要求，“混合部署的公共算力平台中，自主研發晶片所提供的算力标稱值占比不低于60%，并優先使用國産開發架構，使用率不低于60%”，國産AI晶片滲透率有望快速提升。據IDC資料，中國智能算力未來将快速增長，2021年到2026年期間中國智能算力規模年複合增長率達52.3%。

各類算力晶片，如何繁榮生長？

01

02

03

04

繼續閱讀

【幸福鄰裡】朔方路社群：社群物業“交叉任職、雙向進入”共同推進社群治理

LCD黨等到了！Redmi上架千元新機，4nm晶片+LCD屏+36個月久用流暢

科技巨變：中國展示全球首台大規模晶片光刻機，引領行業革新！

餘承東震撼釋出！華為逆襲新篇章：擺脫晶片依賴，創新為王！

美國阻止Intel出口晶片，國産PC将加速替代

主動放棄？美晶片巨頭突然宣布，中國院士說得很對

奧特曼背後的7萬億美金：打造晶片帝國的雄心與征途

OPPO A60手機釋出：搭載高通骁龍680晶片！

1600塊的骁龍8+手機你敢信嗎？120w快充+自研晶片V1+，真的很香！

華為放大招，又一麒麟 9 系晶片曝光

191億，中國移動AI伺服器采購落地，華為昇騰晶片成最大赢家

硬核對抗華為，小米自研玄戒晶片要來了！澎湃Vs鴻蒙，玄戒Vs麒麟

馬斯克腦機接口公司第二位受試者獲FDA準許今年計劃為10人植入晶片

高像素、AI算法、自研晶片……國産手機影像之争日趨白熱化 | 業界

英偉達下調供應中國市場的H20 AI晶片價

中國市場遇冷，傳英偉達已下調H20晶片價格