英偉達CEO黃仁勳 (Jensen Huang) (圖檔來源:AFP)
中國市場,對于萬億晶片巨頭英偉達(NVIDIA)來說至關重要。
2022年,英偉達公司總收入中,有超過57億美元(占比25%)來自中國客戶,尤其包括阿裡、騰訊、位元組跳動等網際網路科技大廠,他們一直對英偉達的算力産品A100/H100處于“瘋狂買買買”狀态。
然而,随着2022年10月、2023年10月,美國商務部工業和安全局(BIS)兩次更新對中國的先進半導體和計算裝置的出口管制,英偉達中國特供版GPU産品A800、H800晶片均已經于11月17日起在中國禁售。與此同時,AMD釋出的性能最強的MI300X、MI300A、MI250X、MI250等多款 AI 晶片也不再能出口到中國了。
雖然《隋唐演義》中稱“窮不與富鬥,富不與官鬥”,但黃仁勳卻認為,英偉達是一家要賺錢的“商業公司”,希望盡可能和所有人做生意。
是以,英偉達最終和美國政府進行了一場“貓鼠遊戲”。
12月6日,在美國商務部長雷蒙多(Gina Raimondo)已公開示警下,英偉達CEO黃仁勳卻在新加坡的一場會議中表示,英偉達将繼續為中國市場提供合規晶片産品,預計“特供”晶片将包括HGX H20、L20 PCle、L2 PCle等。
黃仁勳強調,公司将繼續“完全遵守”美國政府的貿易法規。他直言,晶片産業鍊依然處于全球化,美國晶片制造商距離供應鍊獨立至少還有10年-20年時間。
前一天,雷蒙多則對于晶片出口管制的态度依然強硬。她直言,“絕不能讓中國晶片技術趕超美國。我們不能讓中國得到這些(最尖端)晶片,永遠都不能”。雷蒙多還點名英偉達,“我們的意圖是拒絕中國的技術。如果你(英偉達)繞着特定的規定重新設計一款晶片,讓他們能夠從事人工智能項目,我就會在第二天對它(晶片)進行管制。”
“從 AI 算力本身來說,美國英偉達禁止向中國銷售H800算力下,我自己判斷,(中國 AI 産業)大概有2-3年的落後差距,至少是頂尖大模型算力。如果明年英偉達還會釋出新産品的話,可能這個差距還會增加。”一家大模型公司CEO楊迪文(化名)近日在深圳一場活動上表示。
楊迪文坦言,“如今,我們(中國公司)已經拿不到全球最好的 AI 算力晶片了。”
英偉達、AMD、英特爾和國産AI晶片性能對比(來源:钛媒體App編輯整理)
貓鼠遊戲下的英偉達“縮水”晶片,為何還有人買?
上面這張圖提到的3A090,是今年11月17日起正式實施的美國商務部BIS最新出口管制中的ECCN編碼物項。
具體來說,3A090特指特定高性能內建電路,在資料中心應用場景下,當一顆晶片輸入輸出雙向傳輸速率超過每秒600GB,或算力超過4800TOPS時就屬于3A090a,也就意味着該晶片将禁止向中國出口和銷售,而3A090b則屬于非資料中心晶片的超出其所限制的性能名額。
在2002年10月版的出口管制措施中,美國政府并未設立上述這種“算力”标準。新規當時确定的高算力晶片判斷依據有兩個方面:一是其算力峰值超過或達到4800 TOPS,二是傳輸速率超過或達到600GB/秒。那麼,一旦晶片産品達到這一性能參數,就會被納入出口管制的範圍内。
“這兩個技術參數之間是‘且’的關系,需要同時達到才會觸發出口禁令,英偉達很好地利用了這個政策架構,推出了A800晶片。”一位行業人士表示。
是以,英偉達A100晶片的性能參數恰好符合上述要求,也是以受到當時出口管制的影響。随後,英偉達推出A100、H100在中國銷售的“特供版”晶片A800、H800,盡管同架構、同樣配備高帶寬插槽(SXM)版本,但晶片資料傳輸速率下降、記憶體帶寬降低。如果企業不買NVLink互連技術,H800性能和傳輸速率比H100要少60%以上。
那麼,性能暴降、價格節節攀高的英偉達“中國特供”晶片,為何還有人買?
根據與多位行業人士交流,钛媒體App整理了以下三個主要因素:AI 對于高算力需求火爆,GPU的關鍵作用,以及國産 AI 晶片生态弱。
首先,即便性能暴降,但2023年,以ChatGPT為代表的 AI 大模型爆火,面臨經濟衰退的雲廠商全部擠進大模型賽道,AI 訓練晶片成為“爆品”,包括阿裡、騰訊、百度大搶A100、H800晶片,英偉達也是以成為中國 AI 大模型領域關鍵“軍火商”——營收超過台積電、英特爾,年内股價暴漲220%,市值漲到1萬億美元,成為全球第二大半導體公司、第七大科技巨頭。
具體到案例中,生成式AI對算力的具體需求主要展現在搜尋、辦公和計算機等場景中。例如,如果谷歌采用GPT等大模型用于推薦搜尋,每天需要處理35億次搜尋請求,按照GPT-4 API 0.14元/次的價格,每年需要支付1788億元人民币的API費用。若采用自建算力叢集的方案,需要提供每秒約10萬次的峰值通路能力,一輪GPT-4對話涉及200多萬億次浮點運算,在計算資源使用率約60%的情況下,需要約10萬塊A100叢集;如果微軟office使用大模型辦公,按每人每天10次的通路需求計算,中國的學生與白領人群達到2.8億人,每年具有1.02萬億次通路需求,需要8萬塊A100的算力支援。如果12億網民都要有一個定制化的AI個人助理(大模型原生應用),在每人10次的日通路條件下,需要34萬塊A100算力支援。
目前,OpenAI使用1萬-3萬顆英偉達GPU來訓練GPT-3.5模型。集邦咨詢資料顯示,如果以英偉達A100顯示卡的處理能力計算,運作ChatGPT将可能需要使用到3萬塊英偉達GPU顯示卡。另外在開源模型方面,Llama模型則是在2048塊80GB A100上訓練,整個訓練算力接近2000P算力。
百川智能創始人、CEO王小川表示,OpenAI團隊現在正在嘗試把1000萬顆GPU連在一起訓練一個大規模的模型。而英偉達一年大概生産100萬顆GPU,訓練GPT-4需要2.5萬顆GPU晶片,GPT-3.5國内訓練需要4000顆。
AI 技術嚴重依賴于高算力,但目前在大模型訓練算力方面,隻有英偉達才能做到,也能做到最好。
最新财報顯示,截至今年10月29日的第三季度,英偉達實作營收181.2億美元,同比增長206%;淨利實作92.43億美元,同比增長1259%(12.59倍);GAAP攤薄後每股收益為3.71美元,同比增長12.74倍。
價格層面,目前國内可以買到的H800、A100/A800價格都已超過20萬/張。
以2000P算力需求為例,H800 GPU單卡算力2P,需要1000張,預測整個卡價格為2億元;A800單卡算力約為0.625P,需要數量為3200張,預計整個顯示卡價格就高達3.2億元。此外,伺服器還要考慮整機配置運算,包括CPU、存儲、NVLink互連等,以及電力消耗、場地租金和運維成本等因素,價格進一步攀高。
其次,GPU在4000億美元規模的 AI 加速晶片市場變得越來越關鍵。
AMD首席執行官蘇姿豐(Lisa Su)公布的一份資料顯示,一年前,她認為2023年的AI加速器市場為300億美元。到2027年,全球資料中心AI加速器的市場規模将達到1500億美元,這意味着期間的年複合增長率(CAGR)約為50%。但現在蘇姿豐認為,2023年AI加速器的市場規模450億美元,未來幾年的CAGR将高達70%,預計推動整個市場到2027年增加到4000億美元規模。
英偉達企業計算副總裁曼努維爾·達斯(Manuvir Das)給出了另一份資料顯示,預計 AI 所在的潛在市場(TAM)規模将增長至6000億美元。其中,晶片和系統可分得3000億美元,生成式AI軟體可分得1500億美元,另外1500億美元則由英偉達企業軟體貢獻。
很顯然,長期來看,晶片對于 AI 算力發展至關重要。
那麼2023年,誰搶到了最多英偉達GPU?
研究機構Omdia最新報告顯示,微軟、Facebook母公司Meta兩家公司分别從英偉達購買了15萬塊H100 GPU晶片,而谷歌、亞馬遜和甲骨文等公司各搶到了5萬塊GPU。同時,中國廠商中,騰訊購買了5萬塊H800 GPU,百度和阿裡巴巴分别購買了3萬和2.5萬塊A100 GPU。
目前,英偉達占據全球資料中心 AI 加速市場82%的份額,并以95%的市場占有率壟斷了全球 Al 訓練領域的市場,成為這輪 AI 混戰中最大赢家。
“沒有大算力做大模型就是天方夜譚。”中國工程院院士、鵬城實驗室主任高文曾表示,算力已經成為是數字經濟發展的一個名額,算力夠,你的數字經濟就能發展好,不夠就發展不好。
最後,在新一輪 AI 算力競賽中,相比英偉達,國産 AI 算力晶片生态較弱,尤其是在模型訓練層面。
钛媒體App曾公布過一組資料,目前在大模型推理方面,國内 AI 晶片910B僅能達到A100的60%-70%左右,叢集的模型訓練難以為繼;同時,910B在算力功耗、發熱等方面遠高于英偉達A100/H100系列産品,且無法相容CUDA,很難完全滿足長期智算中心的模型訓練需求。
王小川曾提到,目前大模型行業算力分訓練、推理兩部分,合計成本占大模型總成本的40%以上。如果中國要想解決好 AI 算力需求問題,推理部分中國需要有國産算力能力,隻有英偉達(壟斷)是不夠的,而訓練部分依然需要英偉達,中國大體頂不上,現在有天花闆。“這是整個(行業)都要解決的問題。”
從國内來看,大部分國産GPU晶片都是推理類型的,僅有壁仞科技、天數智芯、寒武紀、昇騰等公司曾公布過 AI 訓練晶片。然而,這些廠商的軟體生态依然不及英偉達的CUDA,隻能相容CUDA舊的版本。
當然,未來推理晶片依然會成為關鍵産品。12月7日彭博公布的一段視訊中,蘇姿豐提到,未來4000億美元規模中,将有50%以上的市場來自推理需求。
360公司董事長兼CEO周鴻祎提到,最近矽谷有一種趨勢,奧特曼(Sam Altman)、微軟、Meta、亞馬遜、高通等科技廠商都在做推理晶片。他認為未來一到兩年,大模型推理過程将不再需要借助昂貴的GPU就可以實作技術疊代,把算力成本降下來。“我個人覺得,這個成本很快不是問題。”
管制方式帶來變數,英偉達在中國市場的未來何去何從?
魔高一尺,道高一丈。
今年11月初,市場開始流傳,英偉達即将推出三款“中國特供版”晶片HGX H20、L20 PCle、L2 PCle,分别針對訓練、推理和邊緣場景,以及低于美國管制紅線的NVIDIA RTX 4090D消費級顯示卡,以合規形式向中國出口銷售。
據钛媒體App了解,即将發售的“中國特供版”HGX H20在帶寬、計算速度等方面均有所限制,理論上,整體算力要比英偉達 H100 GPU晶片降80%左右,而且增加HBM顯存和NVLink互聯子產品以提高“無效”的訓練算力成本。預計,HGX H20最快将于明年一季度(2月)釋出。
“我們成立公司就是為了做生意,努力與所有可能的人做生意。”黃仁勳日前表示,英偉達将繼續“完美”遵守貿易法規,并為中國市場提供一套符合美國政府最新規定的新産品。他補充稱,英偉達需要尋求市場的建議,這一過程正在進行中。
然而,這種“貓鼠遊戲”——隻要美國禁令“劃出一條線”英偉達就總會“閹割特供”。但現在,美國政府似乎意識到這一點。
12月2日在2023年裡根國防論壇(RNDF 2023)開場圓桌對話上,雷蒙多直言,晶片與人工智能(AI)對于美國的國家安全很重要,“我們不能讓中國獲得這些晶片。”
她認為,晶片廠商應該了解政府出口管制的實質目的,而不僅僅是滿足某幾個技術參數。美國公司将需要适應美國的國家安全優先事項,包括對BIS半導體出口實施的出口管制。
“我知道在座有晶片公司CEO在對我這樣做有點憤怒,因為你正在失去收入,”雷蒙多稱,“這就是生活。保護我們的國家安全比短期收入更重要。我們必須與産業界達成一緻。”
美國商務部長雷蒙多
雷蒙多的表态被視為美國政府對英偉達政策的公開示警。據了解,美國政府方面正在建立一個超過100人的團隊,這個團隊主要負責半導體方面的工作,以提高美國商務部和BIS在人工智能等方面的技術能力。
實際上,美國政府已經開始向英偉達傳遞壓力。2023年10月新出口管制規定實施後,存在30天的緩沖期,在緩沖期内,既往訂單仍可以傳遞,市場一度認為英偉達會利用緩沖期搶單向中國客戶傳遞晶片(最多13個月),但在新版出口禁令出台之後6天,美國政府就撤回了30天的許可豁免權限,英偉達釋出的公告中稱:接到美國政府的通知,對GPU産品的出口禁令即刻生效。
如今,無論是降低規格,還是說無法使用英偉達、AMD AI晶片進行算力訓練,美國晶片出口管制已經對 AI 行業産生影響,阿裡、騰訊均已經表達擔憂情緒。
11月15日,騰訊控股(00700.HK)在财報電話會議上罕見提及晶片限售情況。騰訊總裁劉熾平表示,雖然騰訊目前擁有最多的 AI 晶片庫存之一,短期内晶片禁令并不會影響騰訊 AI 能力,但長期看,美國晶片管制确實影響了騰訊将這些 AI 晶片資源作為雲服務對外租賃的能力。
“就目前情況而言,騰訊擁有最大的 AI 晶片庫存之一,是以有足夠的籌碼(庫存)支援騰訊混元大模型未來至少幾代的更新發展。短期内晶片禁令并不會真正影響騰訊 AI 能力。展望未來,我們認為,晶片管制實際上确實影響了我們将這些 AI 晶片資源作為雲服務對外租賃的能力。是以這是一個可能受到影響的領域。未來我們必須想辦法讓 AI 晶片的使用更高效。我們會嘗試看是否可以将大量的推理負載轉到性能較低的晶片上,這樣我們就可以保留大部分高性能的 AI 晶片用于訓練目的,同時我們也将嘗試尋找這些訓練晶片的國産替代。”劉熾平稱。
11月16日晚,阿裡巴巴集團(NYSE:BABA/09988.HK)在2024财年第二季度(即2023自然年第三季度)财報公告中指出,因美國擴大先進計算晶片出口管制,給阿裡雲智能集團前景帶來不确定性,是以阿裡不再推進雲智能集團的完全分拆。
另外,最近一個月,阿裡雲、滴滴、騰訊視訊、釘釘等産品服務出現了長時間的“斷連”情況。有分析認為,這與資料中心晶片減少、伺服器運維停頓等因素有關。
阿裡董事長蔡崇信曾表示,中國80%的科技企業和超過50%的AI大模型公司跑在阿裡雲上。而随着阿裡雲“崩”上熱搜,促使更多人思考,英偉達 AI 晶片禁售,未來可能将對中國 AI 公司的業務産生長期影響。
當然,雖然美國政府不想讓黃仁勳“賺錢”,但中國人也希望将晶片留在國内。
最近在社交媒體上的一則文章中顯示,勞工在美國工廠中将英偉達RTX 4090顯示卡拆卸掉,隻保留晶片,并把logo塗掉,通過海運方式留到國内 AI 公司中做模型訓練使用。
國産晶片也在努力。有行業人士告訴钛媒體App,“最近賣國産910B晶片的銷售人員,經常拿着機箱到大學和研究機構裡面,讓教授博士們免費使用,說服更多人應用國産 AI 晶片。”
黃仁勳近期在紐約公開表示,“美國出口管制新規帶來了很多意想不到的後果。他已經看到中國至少有多達50家公司,正在開發與英偉達競争的技術”。
12月6日新加坡交流活動中,黃仁勳再次表示,華為、英特爾以及越來越多的半導體初創公司對英偉達在 AI 加速器市場的主導地位構成了嚴峻的挑戰。其中,華為是英偉達“非常強大”的競争對手之一。
很顯然,在巨大的規模和市場機遇下,英偉達對于中國市場巨大的商業價值無法割舍。
今年第三季度财報上,英偉達CFO Colette Kress披露稱,英偉達在中國以及其他更新禁令後出口受限制地區的銷售額,約占資料中心總銷售額的20%~25%。其中,英偉達在中國的相關銷售額達20%左右。此外,英偉達還表示,美國新規實施後,預計今年第四季度其産品在中國的銷售額将大幅下降。
“是以,我們要在算力裡面‘兩條腿’走路。”楊迪文表示,一方面大模型企業将仍優先使用英偉達合規晶片,另一方面要購買國産算力,在一些環節中采用國産晶片,或購買國産算力雲進行訓練,起到一個“主心骨”角色。不過,國産晶片生态依然需要很長的路要走。
一位雲計算服務商向钛媒體App坦言,如今的形勢已經非常清楚,美國出口管制政策短期内沒有松動的可能,發展國産晶片是一種必要的選擇。
钛媒體App梳理多份研究機構統計,預計接下來五年内,全球、中國的 AI 晶片市場規模的增長速度将翻10倍以上,有望成為增速最快的科技領域。
12月7日,IDC中國副總裁周震剛表示,在英偉達A800/H800禁止對中國供應之後,大模型算力面臨“無卡可用”的問題,與國産晶片的單卡算力差距較大。H20的計算能力為148T,而A800為300多T,H800為700多T。是以,未來美國對中國的AI晶片出口可能需要申請豁免,當然美國和中國商務部仍在進行談判。
“那麼,是不是美國晶片禁令會限制中國的AI發展,中美 AI 會拉開差距?我認為,單卡算力有意義,但不是決定性能力。實際上 AI 模型訓練是萬卡級别集中在一起,需要整合系統去發揮效能,而非一張卡。”周震剛指出,根據IDC資料顯示,2020年,智能算力規模(基于FP16計算)達到75 EFlops,預計到2027年,這一數字增長至1117.4 EFlops,8年增長超15倍。
未來,随着美國晶片管制持續收緊,英偉達“閹割”晶片逐漸将不再是中國客戶的唯一選擇。屆時,中國作為全球增速最高的 AI 晶片市場,英偉達卻在這一地區失去50億-70億美金收入。
那黃仁勳收入減少的“痛”,雷蒙多能補償嗎?
(本文首發钛媒體App,作者|林志佳)