美國出口禁令之下,英偉達又為中國“閹割”一顆晶片

“芯事重重”半導體産業研究策劃,本期聚焦英偉達針對中國市場推出的H20所采用的技術以及對應的性能分析。
作者 / 張書嘉 Morris 編輯 / 蘇揚
10月17日,美國更新出口管制标準,要求先進晶片性能超過特定門檻值,即需要申請出口許可。在嚴苛的限制條件下,英偉達針對中國市場的特供版H800、A800兩款晶片也面臨禁售,以下為美國商務部對先進晶片性能的劃定标準:
總算力之和≥4800 TOPS ,
總算力≥1600,且性能密度≥5.92;
2400≤總算力<4800,且1.6<性能密度<5.92;
總算力≥1600,且3.2≤性能密度<5.92。
面對新的管制條例,英偉達給了兩個解法:其一,溝通美國商務部申請許可,給特定的中國客戶“開白”;其二,針對新的管制條例,再次定制全新的特供版本。
剛剛舉辦的第三财季電話會議上,英偉達首席财務官科萊特·克雷斯确認了這一消息。克雷斯表示,英偉達正在與中東和中國的一些客戶合作,以獲得美國政府銷售高性能産品的許可。此外,英偉達正試圖開發符合政府政策且不需要許可證的新資料中心産品。
01 H800是如何“閹割”成為H20?
英偉達試圖開發的新的特供版,即業内盛傳的H20、L20等産品,最新消息顯示,相關産品的上市計劃已經延後至2024年第一季度。
問題在于,H20等全新特供晶片的研發、設計、生産,完全跳出了正常晶片的節奏,英偉達是如何在短時間内拿出這套特供解決方案?
它的答案就是我們這篇文章要讨論的關鍵問題之一:後道點斷生産工藝,用大家更為常用的詞彙總結即——閹割。
HGX H20 - L20 PCIe - L2 PCIe - 産品規格
按正常的設計、生産周期和産品釋出節奏來推斷,特供中國市場的H20 / L20等型号的晶片在這個時間節點釋出,不太可能是重做光罩、重新投片的産物,一個相對合理地推論——即它們是通過半導體後道的實體點斷工藝的改造+再封裝,進而推出的新SKUs。
點斷工藝是半導體制造的後道工序(BEOL)中的改造方法,可以在無須重做光罩的前提下使用一些管/線修補工藝,包括表面雷射點斷、CoWoS層面點斷,甚至通過隧道鏡手工雕線。
晶片制造主要流程,來源:東吳證券
可以假定一下這樣的場景,代工英偉達H800的台積電南科Fab18A、台中Fab15B和台中先進封裝5廠的潔淨室裡,此前降規生産的幾批次裸片,還沒來得及切割、鍍上金屬線和電極,還未封裝成H800和L40S,轉而通過後道點斷生産工藝再封裝成H20、L20。
02 表面雷射點斷是半導體制造傳統藝能
行業慣例來說,一顆數字邏輯晶片的緩存大小(Cache Size)、底層實體互連(PHY channels)都可以通過在後道封測環節重修/點斷做失效屏蔽處理的,尤其是針對低分數裸片的改造方法算是幾十年的傳統藝能,例如早期的奔騰、賽揚處理器的重要差別之一就是點斷緩存。
倘若是局部微小部分,曾經可以手工完成(相當于微雕);面積稍大的部分,可以重新設計Layout預留點斷位置,再由機器完成點斷失效。
一種内置數字顯示的溫度傳感器設計版圖
實操上,通常的晶圓廠都會配置專業裝置,由雷射直接在裸片上切割線路/溝槽,而在亞利桑那錢德勒市的Intel Fab42工廠裡,還有直接在專用隧道鏡下面手工雕刻半導體的裝置,宣稱是原子尺度的,不同于尋常的掃描隧道顯微鏡,幾年前Intel有個宣傳視訊,提到這台裝置,據傳全球持證的操作手不超過14人。
其實在平面半導體以前,顯微鏡手雕不算是高難度動作,但進入FinFET以後,由于垂直方向的3D栅極結構,手雕裝置的代價和操作員就變得遙不可及了。
具體到H20/L20,這兩款特供産品,是如何通過H800、L40S降規而來?可以先看看相關參數
H20:對應H100/800系列,Hopper架構(HBM3、2.5D CoWoS封裝、NVLink)
L20:對應L40S系列,Ada Lovelace架構(GDDR6,2D InFO封裝,PCIe Gen4)
注:固件相應修改;
回顧H100/H800相同架構之間比較關鍵的底層實體互連(SerDes PHY)的差異,H100降規閹割成H800,可以通過局部實體點斷失效處理來實作;但相比之下,H20雖然與前面兩款産品同構,但推測割掉的Dark Si面積可能較大,不确定正常點斷操作是否不值得,也許需要重新做Layout。
但是除了底層實體層互連(SerDes PHY)的差別,還有雙精度浮點計算(FP64)單元面積、張量核(用于矩陣、卷積類計算任務)單元面積的差別,這部分不好定論,但可以推測是類似利用實體備援設計并加以屏蔽的操作,畢竟如今的設計方法學都是推動子產品化的,流片後的測試原本就會有70分 die與90分 die的差別,以及GPU晶片上也不止一個FP64,局部操作實體點斷失效也是合理的。
03 設計備援為點斷創造條件,也是大廠基操
舉個例子:A、如今市面仍可見的Intel F系列CPU,就是點斷顯核的70分die;B、Apple Si的前兩代,官宣8核NPU,實際有9個,就是設計備援。
以上這些,在晶圓制造工序中也算是基本操作,特别是中試廠/線,Alpha - Beta流片的過渡期間,有小錯就會直接手改,不會傳回修改掩膜重新流片的。
從晶片設計者的角度來看,設計備援度是在晶片開發流程中原本存在的,因為前道光刻過程是強調高良率的,具體到失效半導體數,測試環節判斷子產品級别的良率,壞點可以直接電路割斷,後續引線、封蓋工藝流程都不變。
例如3年前,Intel曾向市場推出過不帶顯核的F系列CPU,就是實體降規/閹割的産物,點斷顯核,重新封裝銷售。但是該款晶片偶爾耗電巨大,經使用者投訴,建環境驗證後發現就是原本通過實體點斷失效的顯核在接電之後不受控制而導緻的莫名電源故障。
這個案例反映的情況就是我們上文所講的,同一條流水線,經過點斷失效的晶片,後續的導線/引腳和封裝過程不變,可以繼續銷售。尤其早期Intel 10nm的良率很低,積壓很多這樣的低分片,才會把顯核失效的晶片加印F标繼續銷售。
如今這個“備援度”可能有很大空間,畢竟H100已然是814平方毫米的大晶片,幾乎接近光罩尺寸邊緣(26mm*33mm=858mm2)。而如今釋出的H20降規型号,大概是H100 15%的性能,但是其物料成本幾近相同。
04 封裝層面點斷可操作性、經濟性更好
除了在邏輯晶片表面的雷射點斷工藝之外,還有針對某些特殊位置的點斷要求,比如CoWoS中介層的點斷。
CoWoS作為台積電的2.5D封裝方案,可以使得多顆晶片封裝到一起,互連和記憶體等器件均通過矽中介層互聯,達到了封裝體積小,功耗低,引腳少的效果。
相比表面雷射點斷,在CoWoS的前道部分——即CoW部分是矽通孔和中介層——在該層面操作點斷,做差異化,反而更經濟,也更容易保證良率。
因為算力邏輯晶片和I/O 晶片是分列的,可以屏蔽底層實體互連的通道,也可以縮減HBM3記憶體性能,而且在矽中介層修改差異化更容易,相比全部在邏輯晶片上修改的代價更低,因為中介層上操作的線寬精度可以較低,甚至點斷最上面那層金屬的線寬即可。
但是,CoWoS中介層上面是隻能夠屏蔽實體互連和HBM記憶體,但是無法屏蔽FP64單元、Tensor core單元這樣的計算邏輯晶片面積,這就需要補充用到前文所說的在邏輯die表面點斷失效的方法。
另外,正常情況下,實體點斷失效的電路是不能從外部第三方察覺的,且工藝不可逆;尤其如今晶片都是十幾層金屬,裸片的表面修改了,上面金屬層是看不穿的,除非是用到反工程的透視掃描。
綜上,我們看到進一步特供/降規生産的H20/L20等型号,可以判斷是H800和L40S的裸片的後道實體點斷工序的改造産物,同時重新封裝、重新修改固件,成為新的SKUs。
回想NVIDIA之前積壓的、原本銷往中國的50億美元的GPU産品尚未傳遞,如今返廠做了後道改造才得以如此快速地釋出新的SKU,那麼猜測國内廠商的50億美元訂單也許會轉換為這三個型号。
05 “閹割”後的H20的能與不能
核心AI晶片相關參數及出口管制情況,APPLIES對應受管制,DOESN'T APPLY對應不受管制
如下是針對H20與H100/H800/A100的産品橫向比較,比較次元包括“産品規格、單卡和叢集算力效能、物料成本、定價體系”等四個方面:
叢集綜合算力方面,H100/H800目前是AIDC算力叢集的頂流部署;其中H100理論擴容極限是5萬張卡叢集,最多可達10萬P算力;H800最大叢集是2-3萬張卡,合計4萬P算力;A100最大叢集是1.6萬張卡,合計9600P算力。
然而對于H20,其叢集的理論擴容極限是5萬張卡,以單卡算力0.148P(FP16/BF16)計算,叢集合計提供7400P算力,遠低于H100/H800/A100。
基于NVIDIA H800的8卡伺服器模組
同時,基于算力與通信均衡度預估,5萬張H20合理的整體算力中位數約為3000P左右,倘若H20面對千億級參數模型訓練,恐怕捉襟見肘,需要叢集網絡拓撲有更大的外延擴充。
但從HGX H20的硬體參數綜合來看,幾乎把美國商務部性能密度禁令中嚴格限制的算力門檻以外的名額全部拉滿,顯然是定位為一顆訓推通用的處理器。
隻是針對LLM大模型業态而言,實際使用H20做千卡分布式訓練,雖然大部分有效利用時間都是GPU上的矩陣乘加計算的時間,通信和訪存的時間占比縮小,但畢竟單卡算力規格較低,超限度的千卡叢集擴充反而會使其費效比降低,H20更适用于垂直類模型的訓練/推理,不容易滿足千億參數級LLM的訓練需求。
需要注意的是,選用更多低規格、更廉價的GPU并聯叢集,試圖追平或是超過一台超高算力的GH200效能,這是一種悖論。
因為這種方案的掣肘很多,環境搭建和運作的ROI并不高。因為在算力使用率、并行政策的執行、叢集綜合能耗、硬體成本群組網成本等等方面都不可能獲得理想方案;H20叢集與A800叢集效能可以同比,對比H100/GH200叢集效能則是不實際的。
H20的基本規格方面,算力水準約等于50% A100和15% H100,單卡算力是0.148P(FP16)/ 0.296P(Int8),900GB/S NVLink,6顆HBM3e(顯存的物料與H100 SXM版本配置相同,即6*16GB=96GB容量),die size同樣都是814mm2 。
考慮到H100 GPU單卡物料成本中的HBM顆粒成本獨占55%-60%,整卡的物料成本約3320美元(H20成本相近,甚至由于增配的L2 Cache以及追加了點斷工序而成本更高,且相比H800更加增配了HBM3容量和NVLink lanes帶寬),那麼對應最終的管道定價規則,H20的管道單價可能與H100/H800處于相近水準。
同比參考幾個市面流通價格(來自某一線網際網路公司和某一線伺服器廠的管道貨價):
- DGX A800 PCIe 8卡伺服器約145萬元/台,NVLink版本200萬元/台
- DGX H800 NVLink版本伺服器,國内管道報價約310萬元/台(不含IB)
- DGX H100 NVLink版本伺服器,香港管道報價約45萬美元/台(不含IB)
- H100 PCIe單卡報價約2.5-3萬美元,H800 PCIe單卡尚不确定,且單卡流通管道不正規