天天看點

科技雲報道:從“算力核彈”到生成式AI,新紀元還有多遠?

作者:科技雲報道

科技雲報道原創。

“我們需要更大的GPU”!

3月19日淩晨,一年一度的“AI風向标”重磅會議——GTC 2024如期而至。

英偉達CEO黃仁勳在大會上釋出了包括新一代加速計算平台NVIDIA Blackwell、Project GR00T人形機器人基礎模型、Omniverse Cloud API、NVIDIA DRIVE Thor集中式車載計算平台等在内的一系列突破性科技成果。

其中,NVIDIA Blackwell作為英偉達的“王炸”力作,再次将AI晶片的技術标準推向了新的高度。

科技雲報道:從“算力核彈”到生成式AI,新紀元還有多遠?

緊接着,NVIDIA和亞馬遜雲科技宣布了雙方的擴充合作,Blackwell将很快登陸亞馬遜雲科技,并與亞馬遜雲科技引以為傲的網絡連接配接、進階虛拟化和超大規模叢集等領先技術結合,為數萬億參數規模的大模型推理工作負載帶來巨大的性能飛躍。

萬億級參數規模正處在目前全球頂級大模型的實際參數區間,也許使用者很快就能在各種生成式AI應用中體驗到新硬體帶來的提升。

“王炸”AI晶片誕生

訓練萬億參數級别的大模型,需要多大規模的算力?

在GTC現場,黃仁勳首先算了一道數學題。以OpenAI最先進的1.8萬億參數大模型為例,該模型需要幾萬億的Token進行訓練。

萬億參數與數萬億的Token相乘,就是訓練OpenAI最先進大模型所需的計算規模。黃仁勳估算,如果用一顆petaflop(每秒鐘進行1千萬億次運算)量級的GPU進行運算,需要1000年的時間才能完成。

在Transformer發明後,大模型的規模正在以驚人的速度擴充,平均每6個月就會翻倍,這意味着萬億級别參數并不是大模型的上限。

在這種趨勢下,黃仁勳相信,生成式AI的疊代和發展,需要更大的GPU、更快的GPU互連技術、更強大的超級計算機内部連接配接技術,以及更龐大的超級計算機巨型系統。

一直以來,NVIDIA推出的GPU一般是兩種架構,其中面向遊戲的GeForce RTX系列GPU是Ada Lovelace架構,面向AI、大資料等應用的專業級顯示卡是Hopper架構。風靡世界的H100就是基于Hopper架構。

雖然Hopper已經能夠滿足大部分商用市場的需求,但黃仁勳認為這樣還不夠:“我們需要更大的GPU,更需要将GPU堆疊在一起。”

于是,同時用以上兩種架構類型的産品Blackwell誕生了。Blackwell是英偉達祭出的第六代晶片架構。這塊小小的GPU,內建了2080億個半導體,擁有着超強的算力,也颠覆了此前所有的産品。

據黃仁勳透露,英偉達為該晶片的研發投入了100億美元。這一新架構以加州大學伯克利分校數學家David Harold Blackwell命名。他專門研究博弈論和統計學,也是第一位入選美國國家科學院的黑人學者。

Blackwell在單晶片訓練方面的FP8性能是其上一代架構的2.5倍,在推理方面的 FP4 性能是其上一代架構的5倍。它具有第五代NVLink互連,速度是Hopper的兩倍,并且可擴充至576個GPU。

是以,Blackwell不是一個晶片,而是一個平台。

NVIDIA GB200 Grace Blackwell超級晶片通過900GB/s超低功耗的片間互聯,将兩個NVIDIA B200 Tensor Core GPU與NVIDIA Grace CPU相連。

其巨大的性能更新,能為人工智能公司提供20 petaflops或每秒2萬億次計算的AI性能,相較于H100,大語言模型性能提升30倍,同時能耗隻有1/25。

不難看出,Blackwell平台如此卓越的性能提升,是為了下一代生成式AI做準備。而從OpenAI最近釋出的Sora和已經開始研發更強大、更複雜的GPT-5模型也能看出,生成式AI的下一步是多模态和視訊,也就意味着更大規模的訓練。Blackwell帶來了更多可能性。

如今,從谷歌的無邊搜尋引擎,到亞馬遜的雲頂天堂,再到特斯拉的智能駕駛,各大科技巨頭正紛紛加入NVIDIA的Blackwell陣營,開啟了一場令人興奮的AI加速計算盛宴。

亞馬遜、谷歌、戴爾、Meta、微軟、OpenAI、Oracle、特斯拉等行業翹楚都在争先恐後地布局,準備在AI新時代大展身手。

難掩戰略焦慮

受益于去年以來生成式AI的火爆,2月21日盤後,英偉達公布的最新一季度财報再次打破市場預期。财報顯示,2024财年,英偉達總營收達609億美元,同比增長125.85%;淨利潤為297.6億美元,同比增長超581%;調整後每股盈利為12.96美元,同比增長288%。此次已經是英偉達實作連續四個季度的盈利超出市場預期。

英偉達的業績加速實則反映了全球科技公司對于AI算力需求的激增。随着Sora等應用的橫空出世,世人看到了大模型落地的巨大潛力。

生成式 AI很有可能進入“軍備競賽”階段,與之伴随的是科技公司對晶片的需求也會持續提升。

Counterpoint Research的資料顯示,2023年,英偉達的營收将飙升至303億美元,比2022年的163億美元增長86%,躍升為2023年全球第三大半導體廠商。

富國銀行則預計,英偉達2024年将會在資料中心市場獲得高達457億美元的營收,或創下曆史新高。

不過,創造曆史的英偉達并非高枕無憂。英偉達在AI計算的“壟斷”的現狀并不讓所有人都滿意,競争對手在竭力打破英偉達的統治地位,客戶也需要第二個AI晶片供應源。

盡管英偉達的GPU有很多優點,不過它在用于AI時它可能耗電量太高且程式設計複雜。從創業公司到其他晶片制造商和科技巨頭,英偉達的競争對手層出不窮。

近期,OpenAI CEO奧爾特曼正在與中東阿布紮比G42基金、日本軟銀集團等全球投資者籌集超過80億美元資金,成立一家全新AI 晶片公司,目标是利用資金建立一個工廠網絡來制造晶片,直接對标英偉達。

2月17日,業内人士透露,日本投資界巨頭軟銀集團創始人孫正義正在尋求籌集最高達1000億美元的資金,打造一家規模龐大的合資晶片公司,這家公司能夠與晶片設計部門Arm形成互補。

過去,AMD一直在進行其新一代AI戰略規劃,包括并購和部門重組等,但生成式AI的橫空出世導緻該公司産品陣容進一步擴充:去年12月釋出的MI300晶片專門面向複雜的AI大模型,配置了1530億個半導體、192GB的記憶體、每秒5.3TB的記憶體帶寬,分别是英偉達最強AI晶片H100的大約2倍、2.4倍和1.6倍。

亞馬遜雲科技也在自研晶片領域進行持續投入,以提升客戶雲上工作負載成本效益。亞馬遜雲科技很早就面向AI領域推出了Trainium訓練晶片和Inferentia推理晶片兩個系列,并不斷更新疊代。

去年底推出Trainium2能夠通過雲中擴充和網絡互聯提供65exaflops的AI算力,數周時間即可完成3千億參數的大語言模型的訓練。這些AI晶片已被使用在包括Anthropic等生成式AI領域的頭部企業當中。

這些大廠不約而同地砸下重金,選擇自研AI晶片,透露出誰都不想将科技的話語權和主導權交到晶片大廠的手中,隻有處于“AI食物鍊”頂端,才有可能掌握通向未來的鑰匙。

研發為底,生态為徑

黃仁勳曾在很多地方有過這樣的表示:英偉達不是在銷售晶片,而是在銷售解決問題的能力。

在這種産業生态共建的理念驅動下,英偉達圍繞GPU打造了一個涵蓋硬體、軟體及開發工具在内的生态系統。

例如,英偉達在自動駕駛領域的投資成果顯著,其Drive PX系列平台以及後來推出的Drive AGX Orin系統級晶片,成為了衆多汽車制造商實作進階駕駛輔助系統(ADAS)和自動駕駛的關鍵部件,這是底層技術創新與實際應用場景深度融合的成功案例。

面對行業競争,英偉達希望發揮整體的生态協作力量,共同為産業服務,為市場服務。

英偉達與雲計算“一哥”亞馬遜雲科技的合作同樣成果不凡,從第一個GPU雲執行個體到現在的Blackwell平台解決方案,雙方的合作已經超過13年。客戶很快就能在亞馬遜雲科技上使用基于NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPUs的基礎設施。

英偉達的超強算力晶片系統與亞馬遜雲科技強大的Elastic Fabric Adapte(EFA)網絡連接配接能力、進階虛拟化(Amazon Nitro System)和超大規模叢集(Amazon EC2 UltraClusters)等領先技術的結合,使得客戶能夠更快更大規模且更安全地在雲上建構和運作數萬億參數的大語言模型。

在大模型研發領域,萬億級參數規模此前還算是一道門檻。根據公開的報道,去年年中釋出的GPT4的模型參數是1.8萬億,由8個220B模型組成;前不久釋出的Claude3模型沒有公布參數規模,而馬斯克最新開源的Grok大模型參數是3140億參數規模。

雙方此次合作,有望在加速萬億級别大語言模型的研發方面,為生成式AI領域的突破提供新的可能。

英偉達自身的AI團隊專門在亞馬遜雲科技上建構了Project Ceiba項目,以幫助其推動未來生成式AI的創新。

Ceiba項目首次亮相是在2023年11月底亞馬遜雲科技2023 re:Invent全球大會上,這是當時英偉達與亞馬遜雲科技合作建造的世界上最快的AI超級計算之一,當時的計算性能為65 exaflops。

随着Blackwell平台加入Ceiba項目,為其帶來了7倍于原先的計算性能,現在,該AI超級計算機将能夠處理高達414 exaflops的AI計算量。

新的Ceiba項目擁有20,736顆B200 GPU的超級計算機,采用新型NVIDIA GB200 NVL72系統建構,該系統利用第五代NVLink技術連接配接10,368顆NVIDIA Grace CPU。

系統還通過亞馬遜雲科技的第四代EFA網絡進行擴充,為每個Superchip提供高達800 Gbps的低延遲、高帶寬網絡吞吐量。

此外,亞馬遜雲科技還計劃提供配備基于新的英偉達B100 GPU的Amazn EC2執行個體,并能夠在Amazon EC2 UltraClusters中進行大規模部署。

此次合作被黃仁勳抱以更多期待:“人工智能正在以前所未有的速度推動突破,導緻新的應用、商業模式和跨行業的創新。

英偉達與亞馬遜雲科技的合作正在加速新的生成式AI能力的發展,并為客戶提供前所未有的計算能力,以推動可能性的邊界。”

如此多的行業,如此繁複的創新,英偉達正與其合作夥伴建構起越來越強大的AI生态,共同引領生成式AI的新紀元。用黃仁勳的話說,當計算機圖形學、實體學、人工智能交彙,便衍生出NVIDIA的靈魂。

【關于科技雲報道】

專注于原創的企業級内容行家——科技雲報道。成立于2015年,是前沿企業級IT領域Top10媒體。獲工信部權威認可,可信雲、全球雲計算大會官方指定傳播媒體之一。深入原創報道雲計算、大資料、人工智能、區塊鍊等領域。

繼續閱讀