英特爾釋出Gaudi 3 AI晶片，用成本效益死磕英偉達

雷科技

2024-04-10 20:30釋出于廣東科技領域創作者

英偉達如今在 AI 晶片市場的地位無可争議，直線上漲的資料中心收入和市值就是最好的佐證。但王權沒有永恒，英偉達并非不可撼動。

在英偉達釋出最新一代 BlackWell GPU 的三周後，4 月 9 日晚，英特爾在 Vision 2024 大會上釋出了一系列關于晶片的大消息。

會上，英特爾釋出了面向資料中心的第六代至強處理器，也提前展示了面向下一代 AI PC 的 Lunar Lake 處理器。不過縱觀整場大會，英特爾花費最多篇幅也最重視的，可能還是最新一代的 AI 晶片：

英特爾 Gaudi 3。

Gaudi 3，圖/英特爾

超越英偉達 H100：Gaudi 3 性能更強、成本更低

Gaudi 3 最直接的更新展現在性能和成本方面。

相比英偉達 H100，Gaudi 3 的人工智能推理性能平均提高 50%，能效平均提高 40%。基準測試中，Gaudi 3 可以在 Llama2-7B、Llama2-13B 模型中将訓練時間縮短到英偉達 H100 的一半，同時推理吞吐量也比後者平均高出了 50%。

可以說，Gaudi 3 至少在 Llama2 等關鍵大模型中擊敗了基于英偉達 Hopper 架構的 H100 GPU，這也是目前市售産品中技術最先進的 AI 晶片。

而 Gaudi 3 還有另一個極其重要的更新——比 H100 低得多的成本，按照英特爾的原話是：

（Gaudi 3 的）成本僅為英偉達 H100 的一小部分。

也怪不得 Gaudi 3 剛剛釋出，英特爾就宣布 Naver（南韓網際網路巨頭）、博世、IBM、Ola 等一大批公司成為英特爾 Gaudi 加速器的客戶和合作夥伴。而最早在今年第二季度，英特爾就将向戴爾、惠普以及超微等 OEM 廠商率先供貨，第三季度正式上市。

Naver 代表上台，圖/英特爾

耐人尋味的是，英特爾往年在 Vision 大會上基本不會釋出新的晶片，今年卻一反常态釋出了六代至強處理器和 Gaudi 3 AI 晶片兩款重磅産品。

考慮到英特爾 CEO 帕特·基辛格（Pat Gesinger）去年底就炮轟過英偉達的 CUDA 生态「既淺又窄」，似乎除了軟體生态上的對抗，英特爾也在加快硬體上的追趕。

不過，Gaudi 3 真的有機會挑戰英偉達的 GPU 霸權嗎？

要知道，相比英偉達兩年前基于 Hopper GPU 架構的 H100，上個月基于 BlackWell GPU 架構釋出的 B100 又進行了一輪大幅的更新，包括馬斯克也不禁感慨，「目前沒有什麼比英偉達 GPU 更好的 AI 晶片了。」

Blackwell GPU，圖/英偉達

Gaudi 3 硬體追上英偉達了嗎？

不同于 BlackWell 采用了最新的台積電 3nm 工藝，Gaudi 3 基于台積電 5nm 工藝打造，同時張量核心從 24 個更新到了 32 個。

相比上一代的 Gaudi 2，Gaudi 3 在 FP8 性能、BF16 性能、網絡帶寬、記憶體帶寬都得到了全面的提升，其中 FP8 吞吐量更是高達 1835 TFLOPS：

基本翻了一番。

圖/ 英特爾

比較奇怪的是，搭載 128GB 記憶體的 Gaudi 3 沒有采用最新的 HBM3（高帶寬記憶體），而是采用了稍微有點過時的 HBM2e。

除了更低的傳輸帶寬，HBM2e 的單顆容量也隻有 16GB，相比之下 HBM3 的傳輸帶寬得到了大幅提升，單顆容量也能達到 24GB，甚至是 32GB。

此外，Gaudi 3 采用了英偉達 BlackWell 類似的雙晶片設計，同時封裝了兩個相同的晶片，并通過高帶寬鍊路進行連接配接。每個 Gaudi 3 晶片都具有 48MB 闆載 SRAM，整個晶片提供 96MB SRAM，總帶寬為 12.8TB/秒。

I/O 方面，英特爾并沒有放棄以太網路線，在 Gaudi 3 上将以太網端口的速率從 100GB/s 更新到了 200GB/s，再考慮到雙晶片的設計和每個晶片 24 個以太網端口，每一張 Gaudi 3 的以太網 I/O 總帶寬高達 8.4TB/s。

總的來說，英特爾在 Gaudi 3 的更新上并不激進，甚至可以說有些保守，包括成本要低得多的 5nm 工藝和 HBM2e 記憶體，都說明了這一點。雖然相比上一代 Gaudi 2 已經有了明顯的進步，在部分大模型上超越 H100，但顯然很難與英偉達最新的 B100 相抗衡。

但英特爾的決策未必錯了。

Gaudi 3，圖/英特爾

一方面，考慮到英偉達在 AI 加速計算方面的技術和生态領先優勢，英特爾就算不惜一切代價進行追趕，很可能也難以追平，同時高昂的晶片成本，還會導緻英特爾直接錯失正在快速增長的 AI 晶片市場。

另一方面，在成本優勢明顯的前提下，英特爾隻要能做到超越英偉達 H100 的表現，自然能夠吸引足夠的客戶進行采購。

更何況就連英偉達自己也預計，「下一代産品（B100）将出現供應緊張」。面對「想買不能買」的窘境，很多客戶自然而然也會轉向其他可替代的 AI 晶片。

這其中，就有屬于 Gaudi 3 的機會。

硬體、軟體生态齊頭并進，英特爾能否扛起大旗？

「整個行業都希望能幹掉 CUDA，包括 Google、OpenAI 等公司都在想方設法讓人工智能訓練更加開放。我們認為 CUDA 的護城河既淺又窄。」基辛格說。

在前不久雷科技的報道中，我們就解析了全球科技巨頭組建 UXL 統一加速基金會對抗英偉達 CUDA 的動作。

圖/ UXL

簡單來說，巨頭們基于英特爾 oneAPI 技術，正在開發一套開源軟體平台來替代英偉達 CUDA 平台，允許人工智能開發者在任何 AI 晶片上運作他們的代碼，也包括英偉達 GPU，核心是解除晶片硬體與軟體開發平台之間的強綁定關系，打破英偉達 GPU 在開發生态上的霸權。

正如高通人工智能和機器學習主管 Vinesh Sukumar 所言：「我們實際上是在向開發者展示如何從英偉達平台遷移出來。」

軟體的推倒、硬體的追趕，英特爾顯然明白英偉達的成功既來源于軟體，也來源于硬體，隻有齊頭并進才能真正追趕上英偉達的腳步，甚至幹掉 CUDA，幹掉英偉達的護城河。

但英特爾能不能扛起「打倒英偉達」的大旗，奪回資料中心市場的領先地位？關鍵可能取決于兩點：

一是英特爾能不能在一衆英偉達挑戰者中脫穎而出，包括 AMD 以及一衆全球 AI 晶片公司都不會錯過英偉達 GPU「供不應求」的機會；

二是按照英特爾的路線圖，在合并 GPU 和 AI 晶片兩條産品線之後，代号「Falcon Shores」的下一代 GPU，能不能展現出超越英偉達最新一代 GPU 的潛力。

資料中心晶片路線圖，圖/英特爾

寫在最後

過去一年多，AI 掀起了一場不言而喻的革命，但不管 AI 将如何改變我們的生活，晶片算力依然是底層的驅動力。

但英偉達生生占據了 AI 晶片市場的 80%，這顯然并不尋常，不過人們最不滿的關鍵其實還是：英偉達無法滿足所有人。在這個前提下，不管是英特爾、AMD 還是國産 AI 晶片廠商，其實都還有機會。

換言之，英特爾 Gaudi 3 面對的還是一塊「廣闊天地」，自然「大有可為」。

北京國際汽車展覽會（北京車展）将于4月25日-5月4日隆重舉行，本屆車展以“新時代新汽車”為主題，是“汽車從電動化走向智能化”的風向标。

屆時，包括比亞迪、小米、AITO問界、小鵬、蔚來、理想、極氪、極越、長安深藍等頭部品牌将悉數登場，除新車型“大比武”外，自動駕駛技術的推進、智能座艙的演化和AI大模型與汽車的結合，都将是重要看點。雷科技旗下“關注電動車，更懂智能化”的賬号電車通将派出報道團前往北京現場，進行一線專業報道，敬請關注。

英特爾釋出Gaudi 3 AI晶片，用成本效益死磕英偉達

英特爾釋出Gaudi 3 AI晶片，用成本效益死磕英偉達

繼續閱讀

未來五年的晶片大赢家

A股國家大基金持股有望加倉晶片！晶片半導體龍頭有望長期受益

确認！今年旗艦手機晶片迎來大改

《慶餘年2》完結鬧劇荒？4部新劇定檔，一部比一部“難評”！

Tarzan首秀失敗！小虎被Rookie單殺2次！WBG賽後官博炸了

幹得漂亮！國乒外戰不敗，三場3-2險勝，孫穎莎再戰早田希娜

她在戛納輕撩一下裙擺，突然現出一抹綠色，使她成為最受尊重的人

5年4.2億美元！NBA将誕生年薪9000萬美元球星，東契奇望重新整理曆史

白玉蘭入圍名單出爐，人情冷暖、論資排輩，在王陽身上展現得淋漓盡緻

穆裡尼奧執教費内巴切：重返歐冠，他能否複制昔日的奇迹？

新《射雕英雄傳》首播将至，黃蓉被梅超風豔壓，歐陽鋒帥出新高度

5比1挑釁！泰國隊釋出海報蔑視國足，歸化球員上火世預賽誓要争3分

歐冠決賽一邊倒？皇馬小心大熱必死，多特堅持防反才能創造奇迹

終于等到你！湖人得到12+9内線？這下可以和掘金掰手腕了

慶餘年2：細思極恐！李雲睿讓葉流雲殺範閑，竟是她安排的苦肉計

嘲諷倫納德，埋怨隊友，挑釁歐文！聯盟嚣張的超巨，配不上總冠軍