英偉達的反擊：挾H100以令諸侯

論騷操作，矽谷恐怕沒有CEO能比得上黃仁勳。

去年，黃仁勳向微軟、谷歌和亞馬遜這些雲計算廠商提出了一個計劃：這些廠商都有很多搭載了英偉達GPU的伺服器，由英偉達租用這些伺服器，然後讓英偉達的工程師對其進行“優化”，再以英偉達的名義租給普通的AI企業，從中賺取差價。

說簡單點，以前微軟會直接把雲服務賣給中小公司，現在由英偉達進來當中間商。當然按照英偉達官方的說法，此舉是為了“向雲計算廠商展示在資料中心配置GPU的正确方法”[1]。

伺服器還是那個伺服器，但經過英偉達“優化”後，客戶就從微軟優化到英偉達了。但就是這樣一個匪夷所思的提議，除了亞馬遜之外，各大雲計算廠商居然都同意了。

2023年3月，英偉達正式上線雲計算服務DGX Cloud。事實證明，經過英偉達工程師的優化後，DGX Cloud在訓練大模型時表現得的确更好；在此基礎上，英偉達還破例允許短期租賃。僅僅半年時間，英偉達就拿下了軟體公司ServiceNow等大客戶。

科技公司願意配合英偉達騷操作的真實原因，可能還是因為英偉達手中握有大模型時代最稀缺的資源——H100。

當下，幾乎所有的企業都沒有足夠的算力。連OpenAI創始人阿爾特曼，都曾在一次聽證會上無奈地表示：“如果人們減少使用ChatGPT，我們會非常高興，因為我們的GPU非常短缺[2]。”

買了多少H100，甚至可以成為決定AI成就的關鍵因素。這也讓英偉達有了“挾H100以令諸侯”的底氣。

計算機的“稀土”

通常來說，科技企業會通過購買雲計算廠商的服務，來滿足算力需求。從2023年3月開始，微軟Azure、亞馬遜AWS等雲計算廠商也先後上架了HGX H100的租賃服務，HGX H100是由4個或8個H100組成的伺服器。

然而，當下供需嚴重失衡，雲計算廠商這點H100存貨已經遠遠滿足不了市場的胃口。2023年H1的财報中，微軟專門更新了一條風險因素：如果無法獲得足夠多的AI晶片，雲計算業務可能會中斷。

許多初創公司需要排隊等待3-12個月，一旦友商搶在自己前面，那可能就是幾十上百億估值的損失。

HGX H100

無數“H100窮人”們，隻能被迫發揮主觀能動性，看誰的路子更野。

面對《紐約時報》的采訪，一位創業者将H100比作“稀土”。早些時候，他跑去請求美國國家科學基金會投資自己，僅僅因為基金會底下一個項目剛好有少數空置的H100。

在矽谷，AI創業者打招呼的方式，都變成了“我認識一個有H100的家夥”——不知道的還以為在買賣毒品[4]。

GPU Utils曾測算過H100搶購潮背後具體的需求資料：

對需要自己訓練大模型、追求大力出奇迹的企業來說，沒有個上萬塊H100都不好意思出門。由前DeepMind聯合創始人蘇萊曼創辦的InflectionAI，成立方才一年，已買了2.2萬個H100；至于Meta這樣财大氣粗的公司，很可能會購買10萬個甚至更多。

對微軟Azure等雲計算廠商來說，每一家也都需要至少3萬個H100。而其餘幾家私有雲，還将消耗總計約10萬個H100。

測算後發現，僅美國大型科技公司和少數幾家明星初創公司，需求量已達到約43萬個[5]。如果再算上其他初創企業、研究機構、大學，乃至富裕國家的追逐、再加之黃牛、黑市等不可控因素，實際需求很可能遠大于這個數字。然而據英國《金融時報》爆料，今年H100的出貨量大約是55萬個[6]。

H100之是以令人如饑似渴，其中一個核心原因在于其近乎壟斷的市場地位。

面對大模型訓練對極緻效率的需求，H100在大多數情況下都是最優解。

MPT-30B是第一個使用H100訓練的開源LLM（大語言模型），實際訓練隻耗費了11.6天；相比之下，使用前一代的A100訓練則需要28.3天[7]。如若換成參數規模更龐大的AI，例如1800B的GPT-4，效率差異會更加明顯。跑馬圈地的時代，時間就是一切。

除此之外，H100在模型推理上的效率也遠高于A100。盡管H100的首發價約為3.3萬美元，如今二手市場價格更上漲至4-5萬美元；但若将H100和A100的性能分别除以各自的價格，能發現H100的成本效益實際也高于A100。

MPT-30B的具體訓練、推理情況

黃仁勳說，“Buy more GPUs , the more money you save（買得多，省得多）”，似乎不無道理。

也正因為如此，即便美國限制了H/A100的對華出口，國内科技公司仍在搶購閹割版的H/A800——盡管閹割版的晶片間資料傳輸速度隻有前者一半，意味着需要在大模型訓練上花費更多時間。

除需求量龐大之外，造成H100短缺的另一個原因是産能的嚴重不足。

H100晶片需要使用SK海力士的HBM記憶體，以及台積電的CoWoS封裝——兩者都因過于昂貴，此前并沒能大規模市場化，預備産能并不多。由于産能爬坡尚需時間，有分析師預測H100的短缺至少會持續至明年一季度，也有人認為要到明年年底才有可能有所緩解[9]。

H100内部結構

H100的空前盛況，讓黃仁勳在短短一年時間内體驗了一回坐過山車的感覺。

去年二季度，消費市場萎靡不振加上挖礦企業紮堆倒閉，英偉達交出了一份不及格的财報，“GPU滞銷，幫幫我們”的表情包一度遍地都是。一年之後，黃仁勳成功向資本市場展示了什麼叫“反向暴雷”，同比營收暴漲854%，大幅超出了最樂觀分析師的預測。

巅峰換來了漫天的吹捧，但黃仁勳心裡清楚，英偉達的頭上一直懸着一把劍。

不可避免的戰争

今年8月，傳奇工程師吉姆·凱勒對媒體評論道，“我不認為GPU是運作AI的全部，世界憎惡壟斷[11]。”

此番發言雖有給自家AI晶片打廣告之嫌，卻也是業界的共識。

事實上，那些購買了最多H100的大型科技公司，基本都不太“安分”：微軟、谷歌、Meta，或多或少都嘗試過自研AI晶片。

這讓英偉達面臨着一個異常尴尬的處境：在AI晶片領域，自己與“大客戶”之間，未來幾乎必有一戰。

大型科技公司們選擇自研AI晶片，最初都源于一個非常質樸的需求——省錢，其中最典型的便是谷歌。

早在2014年，谷歌已啟動了自研晶片計劃。彼時，OpenAI的首席科學家伊利亞還在谷歌工作，打造出了一套頗具颠覆性的AI模型。該模型脫胎于伊利亞的“大力出奇迹”理念，隻需要灌入足夠多且正确的資料，它便能更好地完成翻譯、語音識别等工作。然而待到實際應用時，谷歌卻犯了難：

如果将AI服務安裝至10億多台安卓手機中，哪怕每個人每天隻使用3分鐘，谷歌都需要2倍于目前資料中心的算力。當時谷歌已經建了15個資料中心，每個造價上億美金，“超級加倍”顯然不切實際。

最終，谷歌自研出了性能更強、功耗更低的TPU，大大提升了單個資料中心的算力供應，以一種更經濟實惠的方式解決了算力難題。

引入了TPU的資料中心

TPU的出現，令黃仁勳如坐針氈，開始了“爆改GPU”，很快在性能上實作了反超，其最新成果便是H100。不過，H100的售價實在過于昂貴。

如果按重量售賣H100，那麼其每盎司售價将達到黃金的一半；即便對地球上最賺錢的科技公司而言，這筆“英偉達稅”也堪稱天文數字。

然而，H100的實際制造成本并不高。據金融咨詢公司Raymond James測算，H100的成本約為3320美金，僅占首發價的1/10，黃仁勳含淚賺10倍[12]。

自研晶片的經濟收益毋庸置疑，但除此之外其實還有另一個好處：垂直整合打造差異化。

堆疊算力不是簡單的往車裡加汽油，需要考慮軟體适配性、自身業務需求等一系列問題。例如AI所使用的深度學習架構有多個派别，谷歌是TensorFlow，Meta用的PyTorch，而百度則有PaddlePaddle，硬體需要根據不同架構做适配。

專門定制的AI晶片，可以更加緊貼自身AI業務的需求。是以Meta在今年又重新開機了自研晶片計劃，針對PyTorch架構定制了全新的MTIA晶片。

對大公司來說，考量晶片的核心其實不是算力，而是“機關美元提供的算力”，也就是成本。谷歌的TPU和特斯拉的Dojo都證明了，定制服務的成本是可以接受的。

眼下，“反抗的星火”已經點燃。據外媒爆料，大型科技公司的雲計算團隊，已開始頻繁勸說客戶改用其自研晶片，而不是英偉達的GPU。英偉達固然是目前為止絕對的赢家，但沒人知道平衡什麼時候會被打破。

不過，面對這場不可避免的戰争，英偉達也留了後手。

挾H100以令諸侯

英偉達打出的第一張牌，叫CoreWeave。

CoreWeave成立于2017年，最初是一家以太坊挖礦公司，後來轉型做起了雲計算業務。據CoreWeave創始人透露，2022年公司收入為3000萬美金，僅有微軟Azure的1/1133，在矽谷幾乎沒什麼存在感。

然而到了2023年，CoreWeave突然一夜成名，接連簽下Inflection AI和Stability AI兩個大客戶，年營收預計将達到5億美金，一年翻16倍。除此之外，微軟甚至決定在未來幾年花費數十億美金購買其服務；其中僅2024年的訂單，已有20億美金。

改變CoreWeave命運的貴人，正是英偉達。

今年4月，英偉達參與了對CoreWeave的投資；但比起美元，英偉達還給了它一項更稀有的資源——H100。CoreWeave是全球第一家上線HGX H100租賃服務的雲計算企業，比微軟Azure還要早一個月。

CoreWeave三位創始人

這番安排，其實是黃仁勳的有意為之。

H100近乎壟斷的市場地位加之嚴重短缺的現狀，讓英偉達手中多了一層權力：他可以自由決定優先供貨的對象。

相比自己跟Big Tech們同床異夢的塑膠友誼，CoreWeave和英偉達是實打實的革命戰友。是以，英偉達削減了對大型科技公司的H100供應，轉而将這部分産能交給了CoreWeave等“自家兄弟”——它們曾確定不會自研晶片。

從結果來看，這一戰略不僅避免了囤積現象的出現，也确實搶到了大型科技公司的蛋糕：

例如前文提到的Stability AI，在2022年底時一直将亞馬遜AWS視作唯一雲服務商；然而到了今年3月，困于算力不足的Stability AI，悄悄叩開了CoreWeave的大門。

事實上，英偉達手中并非僅有CoreWeave一張牌。這位手握H100的投資人，還投資了同為雲計算公司的Lambda Labs，以及三家從事大模型、應用開發的明星初創企業。

前DeepMind聯合創始人蘇萊曼創辦的Inflection AI，也接受了英偉達的投資

在畝産十萬大模型的當下，H100是比美元還珍貴的硬通貨，也為英偉達創造了一個寶貴的視窗期：盡可能讓更多公司用上H100，趁早建立起生态，“把朋友搞得多多的”。

那麼這個視窗期能持續多久呢？

尾聲

英偉達的一系列“騷操作”已經引來了美國反壟斷機構的注意，同時，全球瘋搶H100的現狀，很可能不會長期持續下去。

正如前文所述，H100産能受限是因為台積電和SK海力士的預備産能不足；随着新産線陸續落地，短缺狀況會逐漸得到緩解。

除此之外，旺盛的需求也未必會延續下去。

事實上，越來越多的科技公司和研究機構都選擇将大模型開源。随着市場上的優質開源模型越來越多，初創企業和研究機構可以不必再自己動手訓練，轉而直接下載下傳開源模型，根據自身業務需求進行開發或者推理。

Meta釋出開源大模型Llama後，斯坦福、卡内基梅隆等多所高校的研究人員就曾聯合起來，以此為基礎打造了開源大模型Vicuna，很快便突破了200萬次下載下傳。

Vicuna

在肉眼可見的未來，算力的主要使用場景很可能會從訓練轉向推理——屆時，H100便不再是獨孤求敗了。因為不同于追求極緻效率的訓練場景，AI推理其實更看重成本效益。

另一方面，以大模型為代表的生成式AI如今面臨的問題在于：面對高昂的算力成本，除了英偉達，大家都還沒賺到錢。

2006年CUDA平台推出時，英偉達以超脫于行業的前瞻性推動了AI的飛速進步。而如今，英偉達氣勢如虹的業績似乎也是一種拷問：它是不是已經從AI的推動者，變成了AI前進的阻力？

參考資料

[1] Nvidia Muscles Into Cloud Services, Rankling AWS，The Information

[2] OpenAI CEO Sam Altman testifies at Senate artificial intelligence hearing | full video，CBS News

[3] Google Gemini Eats The World – Gemini Smashes GPT-4 By 5X, The GPU-Poors，Semi Analysis

[4] The Desperate Hunt for the A.I. Boom’s Most Indispensable Prize，The New York Times

[5] Nvidia H100 GPUs: Supply and Demand，GPU Utils

[6] Saudi Arabia and UAE race to buy Nvidia chips to power AI ambitions，Financial Times

[7] MPT-30B: Raising the bar for open-source foundation models

[8] China’s internet giants order $5bn of Nvidia chips to power AI ambitions，Financial Times

[9] AI Capacity Constraints - CoWoS and HBM Supply Chain，Semi Analysis

[10] Insight: Inside Meta's scramble to catch up on AI，Reuters

[11] Jim keller發聲：世界憎恨壟斷，GPU不是全部，半導體行業觀察

[12] Nvidia Makes Nearly 1,000% Profit on H100 GPUs: Report，Toms Hardware

[13] 深度學習革命，凱德·梅茨

[14] 英偉達帝國的一道裂縫，飯統戴老闆

[15] CoreWeave came ‘out of nowhere.’ Now it’s poised to make billions off AI with its GPU cloud，Venture Beat

[16] Why Nvidia Aids Cloud Rivals of AWS, Google and Microsoft，The Information

[17] TPUv5e: The New Benchmark in Cost-Efficient Inference and Training for

[18] Nvidia’s Hot Streak May Not Last Forever，The Information

編輯：李墨天

視覺設計：疏睿

責任編輯：陳彬

研究支援：何律衡

英偉達的反擊：挾H100以令諸侯

英偉達的反擊：挾H100以令諸侯

繼續閱讀

白沙開展“民法典宣傳月”集中宣傳活動

KPL春季賽最佳陣容評選，一輪遊的暖陽上榜，季軍射手最尴尬

騎士解雇主教練比克斯塔夫：連續兩年進季後賽難保帥位有意勇士助教

OPPO Reno12 Pro評測手機影像進入賽博時代

油車智能化颠覆者！大衆途觀L PRO官宣：5月30日釋出

台灣女星自曝前夫出軌丈母娘，無娘家可歸？

主打一個安心耐用，這幾款手機用起來很省心

歐聯才是夢想的舞台！盧克曼戴帽，真藍黑完勝不敗之師首奪冠軍

即将官宣！巴薩新主帥敲定，拉波爾塔送上三年合同，新時代開啟

立邊設計，等深四曲屏，緊跟潮流的OPPO Reno 12值得入手嗎？

老頭杯第4日：Uzi隊慘遭翻盤！小傘隊爆冷擊敗Letme隊

Reno12價格公布：單反級人像實況照片2699元起

湖人雙喜臨門！濃眉哥聯盟唯一，詹姆斯再創曆史第一紀錄

萬科獲救了！100億銀團貸款到手

曾寶儀預設被黃子佼拖累丢工作，首次回應：隻能接受

出生28天被抛棄，扮演5種身份騙财騙色