天天看點

英偉達的春季釋出會,讓元宇宙有了希望

3月22日,玩家和AI從業者們又愛又恨的老黃,帶着他的新“核彈”來了。遺憾的是,這次的新“核彈”與玩家沒有太大關系,主要是針對企業和工業市場,與玩家有關的RTX 40系估計最快也要等到9月份才會有消息。

英偉達的春季釋出會,讓元宇宙有了希望

好了,廢話不多說,讓我們看看老黃這次又拿了怎樣的“大寶貝”出來。首先是A100顯示卡的接任者,新一代計算卡皇H100閃亮登場,H100采用全新的Hopper架構和台積電最新的4nm工藝,各方面的參數對比上一代的A100都有明顯的提升。

英偉達的超級伺服器晶片Grace也再度曝光,對比上一次給出的資料,此次曝光的Grace晶片性能有了驚人的提升,根據釋出會的描述來看,英偉達似乎也走上與蘋果相同的道路,用更多的晶片拼裝成一顆處理器。

除了硬體方面的産品曝光和釋出,英偉達在軟體領域同樣帶來了不少新東西,比如主打雲端協作的Omniverse Cloud,讓多名使用者可以在雲端直接參與同一個媒體檔案的編輯和渲染等工作。

此外英偉達還展示了不少基于虛拟現實環境的工業、交通模拟案例,還有一套由AI驅動的虛拟角色系統,該系統可以通過深度學習進行動作訓練,訓練結束後不需要額外的骨骼動作設計等操作就能夠依照指令做出對應動作,這下不僅是AI從業者狂喜,電影及遊戲從業者也要狂喜。

不得不說,老黃這次帶來的東西并不少,每一樣都能對AI等行業的發展帶來明顯的改變,下面我們就來詳細的看看英偉達到底都釋出了什麼吧。

H100與Grace

從去年開始,就有消息稱英偉達将會在今年釋出新一代計算卡,并且将用上全新的Hopper架構。目前來看消息準确的,隻不過當初大家猜測新一代計算卡将采用台積電5nm工藝,但是如今看來英偉達選擇一步到位使用了最新的4nm工藝,雖然本質上是5 nm+,但是在功耗方面則有着更好的表現,而且也可以內建更高的半導體。

實際上,從H100的核心規格來看,也不難了解為什麼英偉達最終選了4nm,高達800億的半導體內建度,比上一代A100多了整整260億個,核心數量則是提高到了16896個,這是目前世界上核心數量最高的晶片核心,同時也是上一代100的2.5倍。

英偉達的春季釋出會,讓元宇宙有了希望

誇張的核心參數提升帶來的性能提升也極為誇張,根據英偉達官方給出的資料,H100的浮點計算和張量核心運算能力将比上一代提升至少3倍,FP32高達60萬億次/秒,而上一代的A100為19.5萬億次/秒。

H100還将是首款支援PCIe 5.0和HBM3,讓記憶體帶寬達到驚人的3TB/s,老黃表示隻需要20張H100就可以處理目前全球的網絡流量,雖然聽起來很誇張,但是确實展現出了H100誇張的性能參數。

強大性能也伴随着誇張的功耗,英偉達給出的H100功耗高達700W(真正意義上的“核彈”顯示卡),作為對比上一代A100的功耗僅400W,不過用2倍的功耗換來3倍的性能提升,整體來說也不虧。

H100還針對AI訓練等所要用到的模型進行針對性優化,為Transformer搭載了優化引擎,讓大模型的訓練速度可以提升至原來的6倍,極大的降低了大型AI模型等訓練所需要的時間,這個特性也與下面将會談到的AI虛拟角色系統相呼應。

在英偉達給出的測試資料中,訓練一個擁有1750億參數的GPT-3模型,時間将由原來的一周降低到僅需19小時,而一個擁有3950億參數的Transforme模型也僅需21小時就可以完成訓練,效率提升近9倍。

英偉達的春季釋出會,讓元宇宙有了希望

雖然參數看起來十分美好,但是實際的性能表現如何還有待後續的實際測試結果來揭曉,至少從RTX 30系和A100的經驗來看,最終的實際性能提升幅度可能在2倍-2.5倍之間,不太可能真的達到3倍,不過即使隻有2倍提升也已經相當出色,至少在AI方面已經完全碾壓了AMD的計算卡。

而且,H100還引入了英偉達最新的NVIDIA NVLink第四代互連技術,該技術能夠進一步提升多GPU串聯的效率,在英偉達給出的資料中,串聯後的I/O帶寬能夠擴充至900GB/s,比上一代提升了50%。

再來看看英偉達的新“玩具”Grace,這是英偉達為伺服器業務準備的超級伺服器晶片,此前就有過不少的曝光,這次則是有了更多的資訊,同時還帶來了全新的系列産品。Grace晶片采用最新的Arm V9架構,英偉達以此為基準打造了兩款超級晶片——Grace Hopper和Grace CPU超級晶片。

其中,Grace Hopper由一個Grace CPU和一個Hopper架構的GPU的GPU組成,兩者将會形成一個完整的運算系統,隻需要一顆晶片就可以搭建出一個強大的運算伺服器,同時也可以将多個晶片串聯起來組成更龐大的運算陣列。

英偉達的春季釋出會,讓元宇宙有了希望

而Grace CPU超級晶片則是由兩顆Grace CPU組成,兩顆晶片通過NVIDIA NVLink-C2C技術互連,組成一個内置了144個Arm核心并且擁有1TB/s記憶體帶寬的巨無霸級晶片(Grace CPU Ultra?)。

英偉達的春季釋出會,讓元宇宙有了希望

說實話,英偉達的這顆Grace CPU超級晶片很難不讓人聯想到蘋果在春季釋出會上釋出的M1 Ultra,同樣是基于Arm架構,同樣是由兩顆晶片組合而成,同樣也有着誇張的記憶體帶寬和性能表現。

顯然,晶片互聯拼裝技術已經成為行業的趨勢之一,AMD方面也曝光有采用類似技術的CPU正在研發中,最早将在2023年與大家見面。隻能說如今單顆晶片的性能發展已經接近極限,接下來想要擁有更大的提升,或許将不得不借助類似的互聯技術進行晶片堆疊了。

不過,Grace CPU超級晶片的功耗并不低,英偉達官方給出的資料是500W,已經遠遠超過了傳統的x86架構CPU,當然,考慮到Grace CPU超級晶片的誇張性能:SPECrate跑分740分,較第二名提升60%,這個功耗也不是不能接受。

顯然,在Arm伺服器領域,英偉達的野心是非常大的。

英偉達的虛拟世界

除了一堆高性能的硬體,英偉達此次也展出了不少的軟體示範案例,其中就包括使用H100等硬體來模拟一個虛拟現實環境,用以進行各種測試和模拟。在英偉達的示範中,未來的企業可以通過強大的英偉達硬體建構一個拟真的虛拟測試環境,并在其中測試自動駕駛、智能工廠的運作等。

通過虛拟測試環境的使用,研究者可以更輕松的測試自動駕駛面對各種突發狀況時的回報,并且在測試中直接定位問題,降低整體的測試成本。此外,還可以建構一個1:1的“數字化工廠”提前模拟運作,尋找提高效率和找到可能出現的問題,降低工廠正式運作後出現問題的機率。

英偉達将這一套應用稱為“數字孿生”,能夠大幅度降低自動化工廠和自動駕駛等方面的研究及測試投入。

Omniverse Cloud是英偉達新推出的一款雲端創作服務,使用者通過Omniverse Cloud可以在任意地點通路和編輯大型3D場景,并且無須等待大量資料的傳輸,并且還可以讓使用者能夠直接線上協作共同搭建3D模型。

在過去,3D模型和3D場景的協同建構都需要在一個伺服器上進行,而在Omniverse Cloud推出後,相關創作者就可以通過任意支援Omniverse Cloud的終端,直接用網絡通路協作空間并參與其中,極大的提升了創作者的響應速度和工作自由。

另外,英偉達還為創作者們準備了第二個驚喜,一套由AI驅動的虛拟角色系統,該系統可以讓AI在短時間内完成訓練,學會各種指令所對應的動作。比如一個簡單的劈砍動作,在正常的制作流程中首先需要動作架構師通過對動作骨架的一步步調整(俗稱K幀),然後再放到場景中進行測試,整個流程需要耗費大量的時間,而且每個不同的動作都需要重新進行調試。

而在這套AI虛拟角色系統的幫助下,當你想要虛拟模型做出劈砍的動作,隻需要一條指令,AI就會從已學習的動作中找出關關聯作并自動運作,直接節省了大量的時間和人力,對于遊戲開發者和特效制作者而言,這個系統将讓他們能夠将更多的精力放在其它地方。

英偉達的此次釋出會,雖然并沒有太多的提到元宇宙,但是從硬體到軟體都是未來建構元宇宙的基礎。目前元宇宙無法成為現實的原因主要是兩點,一個是硬體性能無法滿足我們的需要,另一個就是軟體領域尚不成熟,無法提供實時的拟真環境模拟,而這兩者是點亮元宇宙科技的基礎。

在此之前,我們首先需要的就是更強大的計算硬體及更智能的AI系統。英偉達的H100,虛拟現實環境及AI虛拟角色系統的出現,将讓我們朝着真正的元宇宙再邁進一大步。

繼續閱讀