天天看點

半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析

作者:未來智庫

(報告出品方:中信證券)

1. ChatGPT是什麼——OpenAI開發的聊天機器人,擁有創造能力

生成式AI:實作創造,部分領域的能力超越人類的基準水準

不同于分析式AI隻能做些分析型或機械式的認知計算,生成式AI可以創造有意義并具備美感的東西,而且在某些情況下,其生成的結果可能 比人類手工創造的還要好。 機器可以分析資料,并針對不同用例需求找到相應的規律,且在不斷疊代,變得越來越聰明,這種機器被稱為“分析式人工智能” (Analytical AI),或者傳統AI。機器并非如之前那樣僅分析已有的資料,而是創造了全新的東西,這一新型的AI被稱為“生成式人工智 能”(Generative AI)。 2017年谷歌推出一種用于自然語言了解的新型神經網絡架構——Transformers模型,不但能生成品質上乘的語言模型,同時具有更高的可 并行性,大大降低了所需的訓練時間。這些小樣本學習模型,可以更容易地針對特定領域做定制修改。 2015-2020年,用于訓練這些模型的計算量增加了6個數量級,其表現在手寫、語音和圖像識别、閱讀了解和語言了解方面超過了人類的 基準水準。

預訓練模型:大模型提高準确率,2018年開始步入快車道

預訓練模型使得模型的訓練可以被複用,大幅降低訓練成本,但是前期需要大量的資料進行預訓練。 預訓練模型是一種遷移學習的應用,對句子每一個成員的上下文進行相關的表示,通過隐式的方式完成了文法語義知識的學習。預訓練模型通過微調的方式具備很 強的擴充性,每次擴充到新場景時,隻需要針對這個場景的特定标注資料進行定向的學習,便可以快速應用。

ChatGPT:基于OpenAI推出的深度學習模型GPT打造,成為迄今 增長最快的消費應用程式

ChatGPT(Chat Generative Pre-trained Transformer,聊天生成式預訓練器)是OpenAI開發的聊天機器人,于2022年11月推出。它建立在 OpenAI開發的GPT-3大型語言模型之上,并使用監督學習和強化學習(人類監督)技術進行了微調。 雖然聊天機器人的核心功能是模仿人類談話者,但ChatGPT是多功能的。例如,它可以編寫和調試計算機程式,創作音樂、電視劇、童話故 事和學生論文;回答測試問題(有時根據測試的不同,答題水準要高于平均水準);寫詩和歌詞;模拟Linux系統;模拟整個聊天室等。

ChatGPT背後的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯合創始人彼得·蒂爾、Linkedin創始人裡德·霍夫曼、創 業孵化器Y Combinator總裁阿爾特曼(Sam Altman)等人出資10億美元創立。OpenAI的誕生旨在開發通用人工智能(AGI)并造福人類。 ChatGPT中的GPT(Generative Pre-trained Transformer),是OpenAI推出的深度學習模型。ChatGPT就是基于GPT-3.5版本的聊天機器人。 截至2022年12月4日,OpenAI估計ChatGPT使用者已經超過100萬;2023年1月,ChatGPT使用者超過1億,成為迄今增長最快的消費應用程式。 2023年2月,OpenAI開始接受美國客戶注冊一項名為ChatGPT Plus的進階服務,每月收費20美元;此外,OpenAI正計劃推出一個每月42美 元的ChatGPT專業計劃,當需求較低時可以免費使用。

算力需求:計算資源每3~4個月翻一倍,投入資金指數級增長

OpenAI預計人工智能科學研究要想取得突破,所需要消耗的計算資源每3~4個月就要翻一倍,資金也需要通過指數級增長獲得比對。在算力方面,GPT-3.5在微軟Azure AI超算基礎設施(由V100GPU組成的高帶寬叢集)上進行訓練,總算力消耗約 3640PF-days(即每 秒一千萬億次計算,運作3640天)。 在大資料方面,GPT-2用于訓練的資料取自于Reddit上高贊的文章,資料集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經網 絡是在超過45TB的文本上進行訓練的,資料相當于整個維基百科英文版的160倍。

2. GPGPU是什麼——通用計算GPU,算力強大,應用于加速計算場景

GPU是什麼?

GPU(Graphics Processing Unit,圖形處理器):是一種專門在個人電腦、工作站、遊戲機和一些移動裝置(如平闆電腦、智能手機等)上做圖 像加速和通用計算工作的微處理器。GPU是英偉達公司在1999年8月發表NVIDIA GeForce 256(GeForce 256)繪圖處理晶片時首先提出的概念。 GPU應用場景 。 圖形加速:此時GPU 内部的頂點渲染、像素渲染以及幾何渲染操作都可以通過流處理器完成。 通用計算:計算通常采用CPU+GPU異構模式,由CPU負責執行複雜邏輯處理和事務處理等不适合資料并行的計算,由GPU負責計算密集型的 大規模資料并行計算。

從GPU到GPGPU的跨越,英偉達CUDA降低開發門檻

GPGPU(general-purpose GPU,通用計算圖形處理器),利用圖形處理器進行非圖形渲染的高性能計算。為了進一步專注通用計算, GPGPU去掉或減弱GPU的圖形顯示部分能力,将其餘部分全部投入通用計算,實作處理人工智能、專業計算等加速應用。 2007年6月,NVIDIA推出了CUDA(Computer Unified Device Architecture計算統一裝置結構)。 CUDA是一種将GPU作為資料并行計算裝置的軟硬體體系。在CUDA 的架構中,不再像過去GPU架構那樣将通用計算映射到圖形API中, 對于開發者來說,CUDA 的開發門檻大大降低了。 CUDA 的程式設計語言基于标準C,是以任何有C 語言基礎的使用者都很容易地開發CUDA 的應用程式。由于這些特性,CUDA在推出後迅速發 展,被廣泛應用于石油勘測、天文計算、流體力學模拟、分子動力學仿真、生物計算、圖像處理、音視訊編解碼等領域。

2020年GPU全球市場254億美元,獨顯市場英偉達份額約80%

根據Verified Market Research資料,2020年,全球GPU市場規模為254.1億美元(約1717.2億人民币)。随着需求的不 斷增長,預計到2028年,這一資料将達到2465.1億美元(約1.67萬億人民币),年複合增長率為32.82%。

市場研究機構Jon Peddie Research的最新資料顯示,2022年二季度,全球獨立GPU市場出貨量同比增長 2.4% 至 1040 萬台,但是較一季度環比則下滑了22.6%。 從市場佔有率來看,英偉達的獨立GPU的市場佔有率從22Q1的75%增加到22Q2的79.6%,保持了與去年同期相當的份額。 AMD和Intel則分别占比20%/1%。

中國市場,GPU伺服器在AI伺服器中占比92%,占主導地位

據IDC資料,2021年,全球AI伺服器市場規模達156億美元,同比增長39.1%;IDC預測,2025年全球AI伺服器市場規模将 達317.9億美元,年複合增長率為19%。 IDC報告顯示,2021年中國加速伺服器市場規模達到53.9億美元(約350.3億人民币),同比+68.6%;預計到2026年将達 到103.4億美元。年複合增長率為19%,占全球整體伺服器市場近三成。根據IDC資料,2021年,GPU伺服器以91.9%的份額占國内加速伺服器市場的主導地位;NPU、ASIC和FPGA等非GPU 加速伺服器占比8.1%。IDC預計2024年中國GPU伺服器市場規模将達到64億美元。 從行業的角度看,網際網路依然是最大的采購行業,占整體加速伺服器市場近60%的份額;2021年,用于推理工作負載的 加速伺服器占比已經達到57.6%,預計到2026年将超過60%。

3. GPGPU的壁壘是什麼——高精度浮點計算+CUDA生态

壁壘一——高精度浮點計算

CPU是串行處理器,而GPU是并行處理器。 在機器學習中,絕大多數任務會涉及到耗費時間的大量運算,而且随着資料集的增加,運算量會越來越大。解決這個問題的一個方法就是使 用多線程并行計算。 CUDA 核能夠以相對稍慢的速度運作,但是能夠通過使用大量運算邏輯單元(ALU)來提供很大的并行度。 每個 GPU 核都能運作一個獨立的線程,對于矩陣相乘運算來說大大縮短了計算時間。 對于每個小片的結果可以由一組線程負責,其中每個線程對應小片中的一個元素。這個線程組将 A 的行小片和 B 的列小片一一載入共享内 存,在共享記憶體上對其做矩陣相乘,然後疊加在原有結果上。是以對于 2000×2000 的矩陣乘法,隻需要 2000 次并行運作。 但是對于CPU來說,因為是串行計算的,是以需要4000000次運作。

人工智能的實作包括兩個環節:推理(Inference)和訓練(Training)

訓練需要密集的計算得到模型,沒有訓練,就不可能會有推理。 訓練是指通過大資料訓練出一個複雜的神經網絡模型,通過大量标記過的資料來訓練相應的系統得到模型,使其能夠适應特定的功能。 訓練需要較高的計算性能、能夠處理海量的資料、具有一定的通用性,以便完成各種各樣的學習任務(大資料分析淘寶推薦“你可能感 興趣的産品”模型)。 推理是指利用訓練好的模型,使用新資料推理出各種結論。借助神經網絡模型進行運算,利用輸入的新資料來一次性獲得正确結論的過 程。這也有叫做預測或推斷(使用者打開手機被推送“可能感興趣的産品”)。

AI推理端:浮點型量化為整形資料,降低算力、加速推理、降低功耗

量化是通過一組離散符号或整數值去逼近一個連續信号的過程,利用低比特量化(權重或激活)可以在不影響精度的前提下加快推理階段。随 着模型越來越大,需求越來越高,模型的量化自然是少不了的一項技術。 在低比特表達中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顧效率和精度,而被廣泛采用。一方面,INT8的運作速度是 FP16/INT16的兩倍,并且相比FP8,能被更多的硬體裝置支援。另一方面,INT8的量化範圍(-128~127)比INT4(-8~7)或其它更低 的比特(小于4比特)大,表達能力更強。 經過INT8量化後的模型:模型容量變小了,FP32的權重變成INT8,大小直接縮了4倍模型,運作速度可以提升,使用INT8的模型耗電量更 少,對于嵌入式側端裝置來說提升巨大。

4. GPGPU主要應用場景——AI計算和高性能計算

GPGPU在計算領域應用:AI計算和高性能計算

GPU在通用計算領域分為兩種應用場景,人工智能 (AI) 計算和高性能計算(HPC) 。AI所需的計算力不需要太高精度。一些AI應用需要處理的對象是語音、圖檔或視訊,運作低精度計算甚至整型計算即可完成推理或訓練。 智能計算機是一種專用算力,它們在推理或訓練等智能計算方面的确表現出色,但由于AI推理或訓練一般僅用到單精度甚至半精度計算、 整型計算,多數智能計算機并不具備高精度數值計算能力,這也限制其在AI計算之外的應用場景使用。 英偉達新推出的H100晶片搭載Transformer 引擎,使用每層統計分析來确定模型每一層的最佳精度(FP16 或 FP8),在保持模型精度的同 時實作最佳性能,相較于上一代産品提供 9 倍的訓練吞吐量,性能提升6倍。

高性能計算是一種通用算力,設計目标是提供完備、複雜的計算能力,在高精度計算上能力更強。應用場景包括行星模拟、分子藥物設計等。 超級計算機主要測試的是雙精度浮點運算能力(FP64)。對比單精度(32位,FP32)、半精度(16位,FP16)以及整數類型(如INT8、INT4)等, 數字位數越高,意味着人們可以在更大範圍内的數值内展現0/1兩個數值的變化,進而實作更精确計算。

AI晶片的三種較為主流的技術路線——GPU、FPGA和ASIC

AI晶片被稱為AI加速器或計算卡,即專門用于加速AI應用中的大量計算任務的子產品(其他非計算任務仍由CPU負責),面向AI計算應用的 晶片都可以稱為AI晶片,包括GPU、FPGA、ASIC等。

FPGA更适合處理多指令流單資料流,進而适應于推理階段

FPGA沒有極緻的性能特點與量産單價高是其未來發展的瓶頸,更适合用于細分、快速變化的垂直行業,應用面上較為狹窄。 優點:1. 突破馮諾依曼結構,可直接實作算法,沒有指令譯碼和解讀的過程,功效能耗比是CPU的10倍以上、GPU的3倍,處理速度和效 率要高于GPU。2. 可編譯,靈活性很高,開發周期短。FPGA具有可編輯性,使用者可以根據自身需求實作晶片功能的轉換。基于FPGA靈 活編譯的特點,其開發周期較短,上市速度快。FPGA更适合處理多指令流單資料流,進而适應于推理階段。 缺點:1. 價格較高,規模量産後的單價更是遠高于ASIC。目前FPGA的造價相比GPU更為高昂,如果規模量産後,其不像ASIC可以分攤 固定成本,存在單個晶片的編譯成本,是以單價遠高于ASIC。2. 計算能力和峰值性能不如GPU。 3. 靈活性占優的同時犧牲了速度與能耗。 效率和功耗上劣于專用晶片ASIC。4. FPGA的語言技術門檻較高。目前FPGA的設定要求使用者用硬體描述語言對其進行程式設計,需要專業的 硬體知識,具有較高的技術門檻。

5. 國内GPGPU發展水準——落後海外5~10年,多點開花尋求突破

制造:目前國内AI晶片先進工藝多集中在7nm,國際大廠已經來到4nm

大陸的先進工藝設計(16nm及以下)集中于AI晶片(包含雲端及智能駕駛晶片)、交換機晶片、CPU/GPU/DPU、礦機ASIC領域,這些領域各有一些 頭部企業走在前列,但鮮有企業能夠進入個位數先進制程。GPGPU和AI晶片因為去掉了圖形渲染功能,功能相對單一,設計起來複雜度及難度較低。 先進制程晶片的設計成本大幅增加。設計一顆28nm晶片成本約5000萬美元,而7nm晶片需要3億美元,5nm則需要5.42億美元。 若以麒麟的5nm工藝來對标,除了礦機ASIC中的比特大陸推出了基于最先進的5nm的礦機晶片,平頭哥釋出了自研5nm伺服器晶片倚天710,中興通 訊的7nm晶片已實作商用正在研發5nm晶片之外, 其他領域快的如有些國内自動駕駛晶片公司要量産7nm智能座艙晶片,網際網路巨頭的一些AI晶片在向5nm邁進,CPU/GPU/DPU領域大多企業還隻是 規劃向5nm邁進,大多數節點還在16nm或10nm之上,真正實作5nm晶片量産的較少。

IP:國核心心IP廠商,追趕國際廠商

自研IP越多,晶片設計上越有把握,産品的差異化更明顯。但相對而言,資金、人員、時間上的成本投入也更高。 GPU IP自研需要36-48個月以及200個工程師,而采用外購IP的方式,可以減少12-18個月開發周期。 據集微網報道,GPU 的IP主要涉及三大類,一是模拟IP,包括PCIe、Displayport和HDMI等等,這方面國内廠商占有率較低;二是 Memory;三是數字IP,包括基于Arm或RISC-V的微控制器IP、編解碼晶片IP以及最核心的GPU IP等。

報告節選:

半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析
半導體行業專題報告:ChatGPT對GPU算力的需求測算與相關分析

(本文僅供參考,不代表我們的任何投資建議。如需使用相關資訊,請參閱報告原文。)

精選報告來源:【未來智庫】。「連結」

繼續閱讀