天天看點

英偉達阻擊國産AI晶片,“中國特供版”H20綜合算力比H100降80%

英偉達阻擊國産AI晶片,“中國特供版”H20綜合算力比H100降80%

英偉達阻擊國産AI晶片,“中國特供版”H20綜合算力比H100降80%

英偉達Logo(來源:钛媒體App編輯拍攝)

11月10日,近日有消息稱,晶片巨頭英偉達(NVIDIA)将基于H100推出三款針對中國市場的AI晶片,以應對美國最新的晶片出口管制。

規格檔案中顯示,英偉達即将向中國客戶推出新産品分别名為HGX H20、L20 PCle、L2 PCle,基于英偉達的Hopper和Ada Lovelace架構。從規格和命名來看,三款産品針對的是訓練、推理和邊緣場景,最快将于11月16日公布,産品送樣時間在今年11月至12月,量産時間為今年12月至明年1月。

钛媒體App從多位英偉達産業鍊公司了解到,上述消息屬實。

钛媒體App還獨家了解到,英偉達的這三款 AI 晶片并非“改良版”,而是“縮水版”。其中,用于 AI 模型訓練的HGX H20在帶寬、計算速度等方面均有所限制,理論上,整體算力要比英偉達 H100 GPU晶片降80%左右,即H20等于H100的20%綜合算力性能,而且增加HBM顯存和NVLink互聯子產品以提高算力成本。是以,盡管相比H100,HGX H20價格會有所下降,但預計該産品價格仍将比國内 AI 晶片910B高一些。

“這相當于将高速公路車道擴寬,但收費站入口未加寬,限制了流量。同樣在技術上,通過硬體和軟體的鎖,可以對晶片的性能進行精确控制,不必大規模更換生産線,即便是硬體更新了,性能仍然可以按需調節。目前,新的H20已經從源頭上‘卡’住了性能。”一位行業人士這樣解釋新的H20晶片,“比如,原先用H100跑一個任務需要20天,如今H20再跑可能要100天。”

盡管美國釋出新一輪晶片限制措施,但英偉達似乎并沒有放棄中國巨大的 AI 算力市場。

那麼,國産晶片是否可以替代?钛媒體App了解到,經過測試,目前在大模型推理方面,國内 AI 晶片910B僅能達到A100的60%-70%左右,叢集的模型訓練難以為繼;同時,910B在算力功耗、發熱等方面遠高于英偉達A100/H100系列産品,且無法相容CUDA,很難完全滿足長期智算中心的模型訓練需求。

截止目前,英偉達官方對此并未做出任何評論。

據悉,今年10月17日,美國商務部工業和安全局(BIS)釋出了針對晶片的出口管制新規,對包括英偉達高性能AI晶片在内的半導體産品施加新的出口管制;限制條款已經于10月23日生效。英偉達給美國SEC的備案檔案顯示,立即生效的禁售産品包括A800、H800和L40S這些功能最強大的AI晶片。

另外,L40和RTX 4090晶片處理器保留了原有30天的視窗期。

10月31日曾有消息稱,英偉達可能被迫取消價值50億美元的先進晶片訂單,受消息面影響,英偉達股價一度大跌。此前,英偉達為中國專供的A800和H800,由于美國新規而無法正常在中國市場銷售,而這兩款晶片被稱為A100及H100的“閹割版”,英偉達為了符合美國之前的規定而降低了晶片性能。

10月31日,中國貿促會新聞發言人張鑫表示,美方新釋出的對華半導體出口管制規則,進一步加嚴了人工智能相關晶片、半導體制造裝置對華出口的限制,并将多家中國實體列入出口管制“實體清單”。美國這些措施嚴重違反了市場經濟原則和國際經貿規則,加劇了全球半導體供應鍊撕裂與碎片化風險。美國自2022年下半年開始實施的對華晶片出口禁令正在深刻改變全球供需,造成2023年晶片供應失衡,影響了世界晶片産業格局,損害了包括中國企業在内的各國企業的利益。

英偉達阻擊國産AI晶片,“中國特供版”H20綜合算力比H100降80%
英偉達阻擊國産AI晶片,“中國特供版”H20綜合算力比H100降80%

英偉達HGX H20、L20、L2與其他産品的性能參數對比

钛媒體App了解到,新的HGX H20、L20、L2三款 AI 晶片産品,分别基于英偉達的Hopper和Ada架構,适用于雲端訓練、雲端推理以及邊緣推理。

其中,後兩者L20、L2的 AI 推理産品有類似的“國産替代”、相容CUDA的方案,而HGX H20是基于H100、通過固件閹割方式 AI 訓練晶片産品,主要替代A100/H800,國内除了英偉達,模型訓練方面很少有類似國産方案。

檔案顯示,新的H20擁有CoWoS先進封裝技術,而且增加了一顆HBM3(高性能記憶體)到96GB,但成本也随之增加240美元;H20的FP16稠密算力達到148TFLOPS(每秒萬億次浮點運算),是H100算力的15%左右,是以需要增加額外的算法和人員成本等;NVLink則由400GB/s更新至900GB/s,是以互聯速率會有較大更新。

據評估,H100/H800是目前算力叢集的主流實踐方案。其中,H100理論極限在5萬張卡叢集,最多達到10萬P算力;H800最大實踐叢集在2萬-3萬張卡,共計4萬P算力;A100最大實踐叢集為1.6萬張卡,最多為9600P算力。

然而,如今新的H20晶片,理論極限在5萬張卡叢集,但每張卡算力為0.148P,共計近為7400P算力,低于H100/H800、A100。是以,H20叢集規模遠達不到H100的理論規模,基于算力與通信均衡度預估,合理的整體算力中位數為3000P左右,需增加更多成本、擴充更多算力才能完成千億級參數模型訓練。

兩位半導體行業專家向钛媒體App表示,基于目前性能參數的預估,明年英偉達B100 GPU産品很有可能不再向中國市場銷售。

整體來看,如果大模型企業要進行GPT-4這類參數的大模型訓練,算力叢集規模則是核心,目前隻有H800、H100可以勝任大模型訓練,而國産910B的性能介于A100和H100之間,隻是“萬不得已的備用選擇”。

如今英偉達推出的新的H20,則更适用于垂類模型訓練、推理,無法滿足萬億級大模型訓練需求,但整體性能略高于910B,加上英偉達CUDA生态,進而阻擊了在美國晶片限制令下,國産卡未來在中國 AI 晶片市場的唯一選擇路徑。

最新财報顯示,截至7月30日的一個季度内,英偉達135億美元的銷售額中,有超過85%份額來自美國和中國,隻有大約14%的銷售額來自其他國家和地區。

受H20消息影響,截至美股11月9日收盤,英偉達股價微漲0.81%,報收469.5美元/股。近五個交易日,英偉達累漲超過10%,最新市值達1.16萬億美元。

(本文首發钛媒體App,作者|林志佳)

繼續閱讀