天天看點

ChatGPT引發AI晶片荒,台積電成了英偉達身後的超級大赢家

作者:雷科技

1849 年,美國加州發現金礦的消息傳開後,淘金熱開始了。無數人湧入這片新土地,他們有的來自東海岸,有的來自歐洲大陸,還有來到美國的第一代華人移民,他們剛開始把這個地方稱為「金山」,後來又稱為「舊金山」。

但不管如何,來到這片新土地的淘金者都需要衣食住行,當然最關鍵的還是淘金的裝備——鏟子。正所謂「工欲善其事,必先利其器」,為了更高效地淘金,人們開始瘋狂地湧向賣鏟人,連帶着财富。

一百多年後,舊金山往南不遠,兩家矽谷公司掀起了新的淘金熱:OpenAI 第一個發現了 AI 時代的「金礦」,英偉達則成為了第一批「賣鏟人」。和過去一樣,無數人和公司開始湧入這片新的熱土,拿起新時代的「鏟子」開始淘金。

不同的是,過去的鏟子幾乎不存在什麼技術門檻,但今天英偉達的 GPU 卻是所有人的選擇。今年以來,僅位元組跳動一家就向英偉達訂購了超過 10 億美元的 GPU,包括 10 萬塊 A100 和 H800 加速卡。百度、谷歌、特斯拉、亞馬遜、微軟……這些大公司今年至少都向英偉達訂購了上萬塊 GPU。

ChatGPT引發AI晶片荒,台積電成了英偉達身後的超級大赢家

H100 GPU,圖/英偉達

但這依然不夠。曠視科技 CEO 印奇 3 月底在接受财新采訪的時候表示,中國隻有大約 4 萬塊 A100 可用于大模型訓練。随着 AI 熱潮的持續,英偉達上一代高端 GPU A100 的閹割版——A800 在國内一度也漲到了 10 萬元一塊。

6 月的一場非公開會議上,OpenAI CEO Sam Altman 再次表示,GPU 的嚴重短缺,導緻了很多優化 ChatGPT 的工作被迫推遲。按照技術咨詢機構 TrendForce 的測算,OpenAI 需要大約 3 萬塊 A100 才能支援對 ChatGPT 的持續優化和商業化。

就算從今年 1 月 ChatGPT 的新一輪爆發算起,AI 算力的短缺也持續了近半年,這些大公司為什麼還缺 GPU 和算力?

ChatGPT們缺顯示卡?缺的是英偉達

借用一句廣告語:不是所有 GPU 都是英偉達。GPU 的短缺,實質是英偉達高端 GPU 的短缺。對 AI 大模型訓練而言,要麼選擇英偉達 A100、H100 GPU,要麼也是去年禁令後英偉達專門推出的減配版 A800、H800。

AI 的使用包括了訓練和推理兩個環節,前者可以了解為造出模型,後者可以了解為使用模型。而 AI 大模型的預訓練和微調,尤其是預訓練環節需要消耗大量的算力,特别看重單塊 GPU 提供的性能和多卡間資料傳輸能力。但在今天能夠提供大模型預訓練計算效率的 AI 晶片(廣義的 AI 晶片僅指面向 AI 使用的晶片):

不能說不多,隻能說非常少。

大模型很重要的一個特征是至少千億級别的參數,背後需要巨量的算力用來訓練,多個 GPU 之間的資料傳輸、同步都會導緻部分 GPU 算力閑置,是以單個 GPU 性能越高,數量越少,GPU 的利用效率就高,相應的成本則越低。

ChatGPT引發AI晶片荒,台積電成了英偉達身後的超級大赢家

英偉達 DGX H100 AI 超級計算機,圖/英偉達

而英偉達 2020 年以來釋出的 A100 、H100,一方面擁有單卡的高算力,另一方面又有高帶寬的優勢。A100 的 FP32 算力達到 19.5 TFLOPS(每秒萬億次浮點運算),H100 更是高達 134 TFLOPS。

同時在 NVLink 和 NVSwitch 等通信協定技術上的投入也幫助英偉達建立了更深的護城河。 到 H100 上,第四代 NVLink 可以支援多大 18 個 NVLink 連結,總帶寬達 900GB/s,是 PCIe 5.0 帶寬的 7 倍。

面向中國市場定制的 A800 和 H800,算力幾乎不變,主要是為了避開管制标準,帶寬分别削減了四分之一和一半左右。按照彭博社的說法,同樣的 AI 任務,H800 要花比 H100 多 10% -30% 的時間。

但即便如此,A800 和 H800 的計算效率依然超過其他 GPU 和 AI 晶片。這也是為什麼在 AI 推理市場會出現「百花齊放」的想象,包括各大雲計算公司自研的 AI 晶片和其他 GPU 公司都能占據一定的份額,到了對性能要求更高的 AI 訓練市場卻隻有英偉達「一家獨大」。

ChatGPT引發AI晶片荒,台積電成了英偉達身後的超級大赢家

H800「刀」了帶寬,圖/英偉達

當然,在「一家獨大」的背後,軟體生态也是英偉達最核心的技術護城河。這方面有很多文章都有提及,但簡而言之,最重要的是英偉達從 2007 推出并堅持的 CUDA 統一計算平台,時至今日已經成為了 AI 世界的基礎設施,絕大部分 AI 開發者都是以 CUDA 為基礎進行開發,就如同 Android、iOS 之于移動應用開發者。

不過照理說,英偉達也明白自己的高端 GPU 非常搶手,春節後就有不少消息指出,英偉達正在追加晶圓代工訂單,滿足全球市場的旺盛需求,這幾個月時間理應能夠大幅提高代工産能,畢竟又不是台積電最先進的 3nm 工藝。

然而問題恰恰出在了代工環節。

英偉達的高端 GPU,離不開台積電

衆所周知,消費電子的低潮以及還在繼續的去庫存,導緻晶圓代工大廠的産能使用率普遍下滑,但台積電的先進制程屬于例外。

由于 ChatGPT 引發的 AI 熱潮,基于台積電 7nm 工藝的 A100、4nm 的 H100 都在緊急追加訂單,其中台積電 5/4nm 的産線已經接近滿載。供應鍊人士也預估,英偉達大量湧向台積電的 SHR(最急件處理等級)訂單将持續 1 年。

換言之,台積電的産能并不足以應付英偉達短期内的旺盛需求。不怪有分析師認為,由于 A100、H100 GPU 始終供不應求,不管從風險控制還是成本降低的角度,在台積電之外尋找三星乃至英特爾進行代工都是題中應有之義。

ChatGPT引發AI晶片荒,台積電成了英偉達身後的超級大赢家

半導體矽片上造晶片,圖/台積電

但事實證明,英偉達至少在短期内沒有這個想法,也沒有辦法離開台積電。就在 Sam Altman 抱怨英偉達 GPU 不夠用之前,英偉達創始人兼 CEO 黃仁勳才在 COMPUTEX 上表示,英偉達下一代晶片還是會交由台積電代工。

技術上最核心的原因是,從 V100、A100 到 H100,英偉達的高端加速卡都采用台積電 CoWoS 先進封裝技術,用來解決高算力 AI 背景下晶片的存算一體。而 CoWoS 先進封裝核心技術:沒有台積電不行。

2012 年,台積電推出了獨家的 CoWoS 先進封裝技術,實作了從晶圓代工到終端封裝的一條龍服務,客戶包括英偉達、蘋果等多家晶片大廠在高端産品上都全線采用。為了滿足英偉達的緊急需求,台積電甚至采用部分委外轉包的方法,但其中并不包括 CoWoS 制程,台積電仍專注在最有價值的先進封裝部分。

按照野村證券預估,2022 年底台積電 CoWoS 年化産能大概在 7-8 萬片晶圓,到 2023 年底有望增至 14-15 萬片晶圓,到 2024 年底有望挑戰 20 萬片産能。

但遠水解不了近火,台積電先進 CoWoS 封裝的産能嚴重供不應求,去年起台積電 CoWoS 的訂單就在翻番,今年來自谷歌、AMD 的需求同樣強勁。即便是英偉達,也要通過黃仁勳與台積電創始人張忠謀的私人關系,進一步争取更高的優先級。

ChatGPT引發AI晶片荒,台積電成了英偉達身後的超級大赢家

台積電,圖/ Wikimedia Commons

寫在最後

過去幾年由于疫情和地緣政治的變化,所有人都意識到了一種建立在沙子之上的尖端技術——晶片是如此重要。ChatGPT 之後,AI 再度舉世矚目,而連帶對人工智能和加速算力的渴望,無數晶片訂單也紛至沓來。

高端 GPU 的設計和制造都需要很長研發投入和積累,需要面對難以逾越的硬體和軟體壁壘,這也導緻了在這場「算力的盛宴」之中,英偉達和台積電可以拿到大部分的蛋糕以及話語權。

不管是今天關心生成式 AI,還是上一輪以圖像識别為主的深度學習浪潮,中國公司在 AI 軟體能力上的追趕速度都有目共睹。然而中國公司花費巨資,調轉船頭開向 AI 的時候,很少着眼于更底層的硬體。

但 AI 加速背後,最重要的四款 GPU 已經有兩款在國内受限,另外兩款閹割的 A800、H800 不僅拖慢了中國公司的追趕速度,同時也無法排除受限的風險。比起在大模型上的角逐,或許,我們更需要看到中國公司在更底層的競争。

繼續閱讀