1849 年，美國加州發現金礦的消息傳開後，淘金熱開始了。無數人湧入這片新土地，他們有的來自東海岸，有的來自歐洲大陸，還有來到美國的第一代華人移民，他們剛開始把這個地方稱為「金山」，後來又稱為「舊金山」。

但不管如何，來到這片新土地的淘金者都需要衣食住行，當然最關鍵的還是淘金的裝備——鏟子。正所謂「工欲善其事，必先利其器」，為了更高效地淘金，人們開始瘋狂地湧向賣鏟人，連帶着财富。

一百多年後，舊金山往南不遠，兩家矽谷公司掀起了新的淘金熱：OpenAI 第一個發現了 AI 時代的「金礦」，英偉達則成為了第一批「賣鏟人」。和過去一樣，無數人和公司開始湧入這片新的熱土，拿起新時代的「鏟子」開始淘金。

不同的是，過去的鏟子幾乎不存在什麼技術門檻，但今天英偉達的 GPU 卻是所有人的選擇。今年以來，僅位元組跳動一家就向英偉達訂購了超過 10 億美元的 GPU，包括 10 萬塊 A100 和 H800 加速卡。百度、谷歌、特斯拉、亞馬遜、微軟……這些大公司今年至少都向英偉達訂購了上萬塊 GPU。

H100 GPU，圖/英偉達

但這依然不夠。曠視科技 CEO 印奇 3 月底在接受财新采訪的時候表示，中國隻有大約 4 萬塊 A100 可用于大模型訓練。随着 AI 熱潮的持續，英偉達上一代高端 GPU A100 的閹割版——A800 在國内一度也漲到了 10 萬元一塊。

6 月的一場非公開會議上，OpenAI CEO Sam Altman 再次表示，GPU 的嚴重短缺，導緻了很多優化 ChatGPT 的工作被迫推遲。按照技術咨詢機構 TrendForce 的測算，OpenAI 需要大約 3 萬塊 A100 才能支援對 ChatGPT 的持續優化和商業化。

就算從今年 1 月 ChatGPT 的新一輪爆發算起，AI 算力的短缺也持續了近半年，這些大公司為什麼還缺 GPU 和算力？

ChatGPT們缺顯示卡？缺的是英偉達

借用一句廣告語：不是所有 GPU 都是英偉達。GPU 的短缺，實質是英偉達高端 GPU 的短缺。對 AI 大模型訓練而言，要麼選擇英偉達 A100、H100 GPU，要麼也是去年禁令後英偉達專門推出的減配版 A800、H800。

AI 的使用包括了訓練和推理兩個環節，前者可以了解為造出模型，後者可以了解為使用模型。而 AI 大模型的預訓練和微調，尤其是預訓練環節需要消耗大量的算力，特别看重單塊 GPU 提供的性能和多卡間資料傳輸能力。但在今天能夠提供大模型預訓練計算效率的 AI 晶片（廣義的 AI 晶片僅指面向 AI 使用的晶片）：

不能說不多，隻能說非常少。

大模型很重要的一個特征是至少千億級别的參數，背後需要巨量的算力用來訓練，多個 GPU 之間的資料傳輸、同步都會導緻部分 GPU 算力閑置，是以單個 GPU 性能越高，數量越少，GPU 的利用效率就高，相應的成本則越低。

英偉達 DGX H100 AI 超級計算機，圖/英偉達

而英偉達 2020 年以來釋出的 A100 、H100，一方面擁有單卡的高算力，另一方面又有高帶寬的優勢。A100 的 FP32 算力達到 19.5 TFLOPS（每秒萬億次浮點運算），H100 更是高達 134 TFLOPS。

同時在 NVLink 和 NVSwitch 等通信協定技術上的投入也幫助英偉達建立了更深的護城河。到 H100 上，第四代 NVLink 可以支援多大 18 個 NVLink 連結，總帶寬達 900GB/s，是 PCIe 5.0 帶寬的 7 倍。

面向中國市場定制的 A800 和 H800，算力幾乎不變，主要是為了避開管制标準，帶寬分别削減了四分之一和一半左右。按照彭博社的說法，同樣的 AI 任務，H800 要花比 H100 多 10% -30% 的時間。

但即便如此，A800 和 H800 的計算效率依然超過其他 GPU 和 AI 晶片。這也是為什麼在 AI 推理市場會出現「百花齊放」的想象，包括各大雲計算公司自研的 AI 晶片和其他 GPU 公司都能占據一定的份額，到了對性能要求更高的 AI 訓練市場卻隻有英偉達「一家獨大」。

H800「刀」了帶寬，圖/英偉達

當然，在「一家獨大」的背後，軟體生态也是英偉達最核心的技術護城河。這方面有很多文章都有提及，但簡而言之，最重要的是英偉達從 2007 推出并堅持的 CUDA 統一計算平台，時至今日已經成為了 AI 世界的基礎設施，絕大部分 AI 開發者都是以 CUDA 為基礎進行開發，就如同 Android、iOS 之于移動應用開發者。

不過照理說，英偉達也明白自己的高端 GPU 非常搶手，春節後就有不少消息指出，英偉達正在追加晶圓代工訂單，滿足全球市場的旺盛需求，這幾個月時間理應能夠大幅提高代工産能，畢竟又不是台積電最先進的 3nm 工藝。

然而問題恰恰出在了代工環節。

英偉達的高端 GPU，離不開台積電

衆所周知，消費電子的低潮以及還在繼續的去庫存，導緻晶圓代工大廠的産能使用率普遍下滑，但台積電的先進制程屬于例外。

由于 ChatGPT 引發的 AI 熱潮，基于台積電 7nm 工藝的 A100、4nm 的 H100 都在緊急追加訂單，其中台積電 5/4nm 的産線已經接近滿載。供應鍊人士也預估，英偉達大量湧向台積電的 SHR（最急件處理等級）訂單将持續 1 年。

換言之，台積電的産能并不足以應付英偉達短期内的旺盛需求。不怪有分析師認為，由于 A100、H100 GPU 始終供不應求，不管從風險控制還是成本降低的角度，在台積電之外尋找三星乃至英特爾進行代工都是題中應有之義。

半導體矽片上造晶片，圖/台積電

但事實證明，英偉達至少在短期内沒有這個想法，也沒有辦法離開台積電。就在 Sam Altman 抱怨英偉達 GPU 不夠用之前，英偉達創始人兼 CEO 黃仁勳才在 COMPUTEX 上表示，英偉達下一代晶片還是會交由台積電代工。

技術上最核心的原因是，從 V100、A100 到 H100，英偉達的高端加速卡都采用台積電 CoWoS 先進封裝技術，用來解決高算力 AI 背景下晶片的存算一體。而 CoWoS 先進封裝核心技術：沒有台積電不行。

2012 年，台積電推出了獨家的 CoWoS 先進封裝技術，實作了從晶圓代工到終端封裝的一條龍服務，客戶包括英偉達、蘋果等多家晶片大廠在高端産品上都全線采用。為了滿足英偉達的緊急需求，台積電甚至采用部分委外轉包的方法，但其中并不包括 CoWoS 制程，台積電仍專注在最有價值的先進封裝部分。

按照野村證券預估，2022 年底台積電 CoWoS 年化産能大概在 7-8 萬片晶圓，到 2023 年底有望增至 14-15 萬片晶圓，到 2024 年底有望挑戰 20 萬片産能。

但遠水解不了近火，台積電先進 CoWoS 封裝的産能嚴重供不應求，去年起台積電 CoWoS 的訂單就在翻番，今年來自谷歌、AMD 的需求同樣強勁。即便是英偉達，也要通過黃仁勳與台積電創始人張忠謀的私人關系，進一步争取更高的優先級。

台積電，圖/ Wikimedia Commons

寫在最後

過去幾年由于疫情和地緣政治的變化，所有人都意識到了一種建立在沙子之上的尖端技術——晶片是如此重要。ChatGPT 之後，AI 再度舉世矚目，而連帶對人工智能和加速算力的渴望，無數晶片訂單也紛至沓來。

高端 GPU 的設計和制造都需要很長研發投入和積累，需要面對難以逾越的硬體和軟體壁壘，這也導緻了在這場「算力的盛宴」之中，英偉達和台積電可以拿到大部分的蛋糕以及話語權。

不管是今天關心生成式 AI，還是上一輪以圖像識别為主的深度學習浪潮，中國公司在 AI 軟體能力上的追趕速度都有目共睹。然而中國公司花費巨資，調轉船頭開向 AI 的時候，很少着眼于更底層的硬體。

但 AI 加速背後，最重要的四款 GPU 已經有兩款在國内受限，另外兩款閹割的 A800、H800 不僅拖慢了中國公司的追趕速度，同時也無法排除受限的風險。比起在大模型上的角逐，或許，我們更需要看到中國公司在更底層的競争。

ChatGPT引發AI晶片荒，台積電成了英偉達身後的超級大赢家

ChatGPT們缺顯示卡？缺的是英偉達

英偉達的高端 GPU，離不開台積電

寫在最後

繼續閱讀

蘋果放棄造車原因曝光！體驗ChatGPT後怕掉隊，傳正接洽Rivian

ChatGPT沒有做的AI搜尋，是不是下一個戰場

最強OpenAI釋出新ChatGPT-4o，AI領域的突破情感識别+視覺了解

OpenAI一夜幹翻語音助手！ChatGPT學會看螢幕，現實版Her來了

突然殺出！中國版阿裡ChatGPT來了！我忍不住去注冊體驗

胡錫進要失業了？網友用ChatGPT模仿“胡編體”寫作，笑瘋

從人機互動角度聊聊ChatGPT-4o

iOS 版 ChatGPT 更新支援 App 首選語言設定中文

如何讓ChatGPT更“懂你”

生成式人工智能的風險與治理——以ChatGPT為例

這才是ChatGPT4o最大的更新！釋出會居然隻字未提！GPT-4o的識圖能力居然這麼強！連人像照都可以看出是誰👍我這裡

ChatGPT 新功能上線：聊天時可直接選擇 OneDrive 等網盤檔案｜懂點AI

ChatGPT能夠幫助醫生準确分析臨床研究和病案記錄

ChatGPT 日耗電超 50 萬度，卡死AI發展的竟然是能源？

恐怖！懇求斯坦福教授幫它“越獄”？ChatGPT-4已出現自

和ChatGPT搞黃色的年輕人