天天看點

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

作者:PConline太平洋科技

寫在開頭

這半年以來,除了RTX40系顯示卡的DLSS3給大家帶來驚豔的效果外,AIGC的火爆程度也遠超玩家想象。換作以前,根本沒人想到GPU的強大算力能夠用于AI。雖說相比大規模的AI計算叢集,遊戲顯示卡的算力不值一提,但是我們用它實作一些簡單的AI應用還是相當不錯的,當然,AI也能幫助你提高工作效率等,這些都是極具實用意義的展現。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

想要實作AI應用也不難,現在你隻需要一台高配置電腦就可以享受到。不過既然是體驗,那我們怎麼能用普通的顯示卡呢,我們剛好收到了索泰GeForceRTX4090PGFOC顯示卡,作為地表最強的遊戲顯示卡,其AI能力想必也是各大玩家好奇的重點。那麼這塊顯示卡的實際表現究竟如何呢?我們一起來看下。

引入TensorCore

想要體驗AIGC,首先就要了解顯示卡的内部構造。最開始遊戲顯示卡并不能用來做AI訓練,在以前它更多是一張純正的遊戲顯示卡。不過後續NVIDIA給遊戲顯示卡引入了TensorCore,是以顯示卡有了進步非常大的深度學習性能。這也讓AI成為遊戲顯示卡的另一大用處。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

TensorCore的官方叫法是張量計算核心,作用就是增加顯示卡的AI深度學習計算能力。我們本次所講的AI應用其實就離不開這個TensorCore。可以說自打RTX20系顯示卡裡加入它以後,顯示卡又開啟了一扇新的大門,讓玩家不僅可以玩遊戲,還可以用AI創造更多可能。

第一代TensorCore

不過第一張實裝TensorCore的顯示卡并不是Turing架構的RTX20系,而是我們耳熟能詳的TitanV,作為唯一的Volta架構顯示卡,它才是第一個吃上TensorCore的。在RTX20系顯示卡還沒釋出前,許多深度學習的從業者就是購買這張顯示卡進行深度計算的。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

規格上,TitanV顯示卡僅配備了640個第一代TensorCore,不過它支援FP16和FP32下的混合精度矩陣乘法,可提供每秒超過100萬億次(TFLOPS)的深度學習性能,是Pascal架構的5倍以上。與Pascal相比,用于訓練的峰值teraFLOPS(TFLOPS)性能提升了高達12倍,用于推理的峰值TFLOPS性能提升了高達6倍,訓練和推理性能提升了3倍。

第二代TensorCore

搭載第一代TensorCore的TitanV顯示卡其實不是我們正常意義上的遊戲卡,真正讓這項技術下放,還要是Turing架構的RTX20系顯示卡,上到旗艦的RTX2080Ti,下到甜品級的RTX2060統統都引入了TensorCore。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

正因為TensorCore的引入,讓RTX20系顯示卡有了一定的深度學習能力,老黃才得以在RTX20系顯示卡上完成光線追蹤和DLSS。第二代TensorCore相比第一代又有了進步,提供了一系列用于深度學習訓練和推理的精度(從FP32到FP16再到INT8和INT4),每秒可提供高達500萬億次的張量運算。

第三代TensorCore

在RTX30系顯示卡,也就是Ampere架構的顯示卡中,NVIDIA的TensorCore更新為第三代。采用全新精度标準TensorFloat32(TF32)與64位浮點(FP64),以加速并簡化人工智能應用,可将人工智能速度提升至最高20倍。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

第三代TensorCore中,NVIDIA還引入了稀疏化加速,可自動識别并消除不太重要的DNN(深度神經網絡)權重,同時依然能保持不錯的精度。首先原始的密集矩陣會經過訓練,删除掉稀疏矩陣,再經過訓練稀疏矩陣,進而實作稀疏優化,進而提高TensorCore的性能。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

是以最終的結果就是第三代TensorCore在處理稀疏網絡的速率是Turing的兩倍,算力高達238TensorTFLOPS,而Turing為89TensorTFLOPS。

第四代TensorCore

而RTX40系顯示卡上的TensorCore已經進化到了第四代,最主要的變化是新增了HopperFP8TransformerEngine,可提供1400TFLOPS的張量處理性能,可以說深度學習性能得到了巨大的飛躍,這也意味着通過它可以實作新的技術想法,後面的DLSS3我們會再次提到TensorCore的功勞。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

我們細說這個FP8低精度浮點數特性,其實可能很少有人注意到這個硬體更新,不過它對于AI領域的改變真的挺大的,有了FP8硬體加速之後獲益最大的是近年新興的一種AI基礎架構,Transformer。這幾年有名的語言AI,比如BERT、GPT,都用到了這個結構,當然我們熟悉的AI繪圖領域也有用到這個結構。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

Transformer模型的架構

這類AI模型的特點就是大、而且參數多,而FP8資料格式可以幫它們減小空間占用,塞更多參數進去,算起來也更快。上面我們也提到了,Ada架構的RTX40系顯示卡中負責FP8加速的硬體結構叫HopperFP8TransformerEngine,Transformer都寫在名字裡了,足以見得其重要性。

當然你可别以為,AI隻是用在GPT、AI繪圖等領域,其實我們之前文章裡講到的DLSS3.0技術也是AI應用的一種,因為DLSS中像多幀合成、補幀以及超分辨率等技術都是依靠深度學習後完成的。感興趣的玩家可以點選【硬體編年史】DLSS技術到底有什麼用,大力真的能出奇迹?浏覽,看看老黃是如何把DLSS技術推到今天的神壇之上。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

測試平台介紹

大家看完TensorCore的介紹也好奇它經過四代傳承,究竟能夠帶來怎樣的AI深度學習能力吧?那我們也不吝啬,祭出目前RTX40系顯示卡中TensorCore最多的顯示卡——索泰GeForceRTX4090PGFOC,帶大家看看這麼一張頂尖的遊戲顯示卡在AI中有如何精彩的表現。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

首先最搶眼的就是它的外觀了,相比前代多了一絲優雅,圓潤的外殼設計也多了許多流線型的柔美,為顯示卡注入了流動與韻律,打破使用尖銳線條勾勒顯示卡外觀的傳統。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

黑白撞色設計在視覺效果上既時尚前衛,又帶來了一種沉靜之感與中和之意,靜谧而平衡,同時也暗藏了一絲絲電競硬核風格,設計相當超前。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

旗艦級的顯示卡自然有旗艦級的配置,背闆用上了全金屬結構,同時還增加了合金加強骨骼結構部件,有利于鞏固顯示卡、不易變型,而且還可以提升散熱效能,加上背闆末端設有開孔設計,有效加強風扇氣流。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

内部散熱也是絲毫不虛,3風扇9熱管的豪華配置,這是高端顯示卡才有的待遇。除此之外還有大面積的VC均熱闆和密密麻麻的散熱鳍片,這個規格,核心想發熱都難。不得不說,隻有旗艦級的散熱規格才對得起旗艦PGF的定位。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

光有散熱還不夠,供電也得滿上!這張索泰RTX4090PGFOC顯示卡采用了SEP2.0供電系統。供電總相數來到了誇張的28相,其中24相為核心供電,4相為顯存供電,并且供電內建度相當高,每相均采用了固态電容做輸入輸出,還有全封閉電感坐鎮。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

外部的電源接口則是全新的12VHPWR供電接口,一根12VHPWR的電源線就可達到供電需求。600W的供電能力完全能夠喂飽這塊530WTDP的性能巨獸。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

視訊輸出接口同樣是頂尖的存在,畢竟你都買索泰RTX4090PGFOC顯示卡了,怎麼說也得配一個4K的顯示屏吧,真4K才能體驗真電競。索泰這張卡上的3個DP1.4a和1個HDMI2.1就能很好的滿足視訊輸出,支援4屏顯示或最高8K@60Hz的規格完全“超速”了。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

說了那麼多,上面這些豪華的配置都是為了極緻的性能釋放,而性能的來源就是這顆AD102-301-A1核心,别看它隻是小小的一顆晶片,其實它得益于TSMC4N工藝,在裡面塞下了763億個半導體,這個數量足足是RTX3090Ti的2.7倍!當然它還有384bit位寬、144個SM、96MB的L2緩存……這裡的每一項都是在告訴你,擁有這顆核心,你就擁有了地表最強遊戲顯示卡。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

話不多說,這就上機實測給大家看看,一上機就見證到了索泰RTX4090PGFOC的絕美顔值。頂部的索泰ZOTAC信仰Logo燈率先亮起,同步閃爍的還有正面的燈帶,圍繞着三把散熱風扇,猶如律動的音符一般。筆者也是被這張卡深深折服了,有顔又有性能,不愧卡皇之名。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

用來測試它的硬體當然不能差,CPU用的是最新的IntelCorei9-13900KS,華碩的Z790Hero主機闆搭配2根16GB的金士頓DDR5-6000高頻記憶體,散熱更是龍神2代360水冷,這套配置可以說是不存在瓶頸了,能充分發揮出索泰RTX4090PGFOC顯示卡的真正實力。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

AI性能測試

介紹完了測試平台,就該開始今天的重點了。AI作為這個時代最前沿的技術之一,現在幾乎所有人、所有行業都在談AI,我們的老黃也不例外,在GTC上、在COMPUTEX2023上都大談AI,甚至說“現在就是AI的iPhone時刻”,為了讓大家感受AI的魅力,更進一步推出了一系列AI産品與服務,震撼全場。事不宜遲,我們開始見證這張頂級的索泰RTX4090PGFOC顯示卡的AI性能。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

AI繪畫

提到AI繪畫,就不得不提最近很火的StableDiffusion,也就是大家俗稱的AI畫畫,通過敲入一些關鍵字,讓AI描繪出來大家腦海中想要的畫面,這樣的用法可謂相當神奇,不少原畫師在見到這樣的工具出現後都開玩笑的說未來我們将被AI取代。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

StableDiffusion是一種基于潛在擴散模型的文本到圖像的生成器,使用者可以任意輸入文本生成高品質、高分辨率、高逼真的圖像。相比起同樣火熱的Midjourney工具,StableDiffusion的優勢在于開源免費和高可控性。這也是很多玩家在體驗AI繪畫的時候選擇StableDiffusion的原因。

不僅如此,StableDiffusion還有一個巨大的優勢,其支援本地運作,這意味着幾乎所有人都可以使用自己的電腦進行AI繪畫,使用門檻極低。這裡我們就用索泰RTX4090PGFOC進行測試,為了友善知道其真實性能,我們會在後續測試中加入其他顯示卡供大家對比參考。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

我們先來一個簡單的測試,用NVIDIA提供的描述生成768x768大小的圖檔,畫圖的參數是:使用v2-1768-emapruned模型;teps:50;CFGscale:7.5,一組10張圖,每次繪畫3組。實測下來可以看到索泰RTX4090PGFOC一騎絕塵,90秒就完成了該項測試,換算過來就是3秒種就能畫出一張,這個速度相信讓不少畫師都心頭一緊吧。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

看完了開胃小菜,下面我們畫點觀衆愛看的小姐姐,我們使用了majicmixRealistic_v6模型,搭配FilmVelvia2Lora與修複眼睛、姿态的插件進行了生成式繪圖。Steps:50,采集器:Euler,CFG:7.5,Seed:172450070,Size:1024x768,共生成1組,6張圖檔。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

毫無疑問,索泰RTX4090PGFOC依舊是天花闆一般的存在,35秒的完成速度傲視群雄,相比較第二名的RTX4080,已經有了10秒鐘的優勢,更不用說其他顯示卡了。換句話說就是,如果你也像我一樣,喜歡AI繪畫,那選擇一張索泰RTX4090PGFOC就能滿足你的所有想象。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

AI高清化照片

看完AI繪畫,你可能已經被AI驚人的表現所折服。其實AI的作用遠不止繪圖,它還能在處理照片領域發光發熱。現階段AI對照片進行無損放大是比較常見的做法。通過AI你可以将原本低像素的照片放大到更大的尺寸,同時分辨率也會有所提升。這對不少老照片簡直是救命稻草般的存在。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

不過AI其實并不是無腦的将分辨率提高,而是利用AI深度學習的功能,對畫面内容進行猜測、填補,給畫面帶來更多細節。有點類似于我們之前講到的DLSS中的補幀,AI有根據的猜和補能夠讓你的老照片煥發生機。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

在AI應用軟體ON1ResizeAI2023中,我們使用AI将多張圖檔提升200%分辨率,此時索泰RTX4090PGFOC的速度為6秒一張,而上代的卡皇RTX3090Ti為9秒,其實你不要以為這是3秒的差距,如果你的工程量比較複雜,那快的這3秒累計起來那就是30%以上的性能提升。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

AI提升視訊分辨率

AI不僅可以高清化照片,對提升視訊分辨率也有不小的貢獻。NVIDIA在RTX4090首發時還沒推出提升視訊分辨率的功能,直到後面RTX4070系列上線,這項劃時代的功能才正式上線。它就是号稱視訊版DLSS的RTXVideoSuperResolution視訊超分辨率技術(RTXVSR)。現在剛好有索泰RTX4090PGFOC顯示卡,那就用這張顯示卡看看,頂級的性能加上超強的AI技術,究竟能不能将低分辨率的視訊也提升到前所未有的效果。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

首先開啟RTXVSR需要你的顯示卡為30系或40系,在NVIDIA控制台中找到視訊圖像設定,手動開啟RTXVideoenhancement即可啟用RTXVSR技術,其中分為1-4檔調節,數字越大品質越好。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

實測環節,可以看到在開啟RTXVSR技術之後,原視訊裡的人物線條由原本的模糊不清變得十厘清晰銳利,甚至部分細節已經超越原生1080P了,并且低畫質的視訊也有不少噪點,在開啟VSR4檔後,噪點幾乎消失。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

除此之外,由于是AI智能提升分辨率的緣故,字型在原生的480P視訊中有些發虛,甚至字型邊緣可以看到毛邊,不過有了VSR的加持後,字型銳利可見,完全不輸原生1080P的效果,不得不說VSR确實有點東西。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

這裡我們也給大家準備了對比視訊,從視訊裡就可以看到VSR的效果之明顯,最進階别的VSR4跟原生480P相比就是一眼的差別,在開啟RTXVSR技術後,部分圖像品質有了顯著提高,不僅鋸齒和噪點幾乎全部消失,顔色過渡也更為平滑,目前VSR能有這種表現堪稱驚豔。

左:原生480P中:VSR4檔右:原生1080P

當然你除了在浏覽器能夠使用這項功能外,本地浏覽器也能享受黑科技的魅力,VLC是目前首個支援RTXVSR技術的本地播放器,且能夠支援多種視訊格式播放,你硬碟裡的老視訊也能擁有清晰畫質了!

我們将本地的360P畫質視訊進行RTXVSR4檔渲染,從畫面上看,開啟了VSR技術後,右側的渲染視訊确實比左側原生的視訊要清晰許多,并且肉眼可見噪點的減少,觀感上要明顯好于原生的360P視訊。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

如果你想知道本地VSR的效果,這裡也有視訊可以看到二者的差距,确實能夠明顯看出有VSR的加持後,不少細節重新清晰可見,對一些低分辨率視訊确實有提升。

左:本地原生360P右:VSR-4檔

總的來說,索泰RTX4090PGFOC上的RTXVSR技術還是相當不錯的,既有不錯的觀感,又有合适的功耗,有了這項全新的AI技術,将為玩家和視訊觀看者帶來革命性的新體驗!

AI目标追蹤

如果你是一位視訊後期,那接下來介紹的功能對你一定有用。在最新的DavinciResolveStudio18裡面,已經支援使用顯示卡加速功能,有了它你就可以利用AI識别和追蹤視訊中的目标,換作以前,如果要用人工來做,就需要逐幀把目标摳畫出來,不僅效率低、做起來還相當繁瑣,但現在有了AI的幫助,就變得簡單太多了,能夠極大提高你的工作效率,并且效果也比人工摳圖好不少。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

我們使用達芬奇AIACCELERATEDMAGICMASK測試時發現,同一項目下,架構革新後的索泰RTX4090PGFOC有着更快的渲染時間,原本RTX3090Ti需要27秒才能完成的操作,現在索泰RTX4090PGFOC僅用17秒!效率足足提高了近50%,換裝索泰RTX4090PGFOC确确實實能夠為後期團隊帶來更高的效率。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

這裡也給大家看看實際效果,可以看到使用AI目标追蹤後,人物邊緣銳利,而且動作連貫,真的比手動省時又省力。

總結

光是看測試結果,想必你已經被索泰GeForceRTX4090PGFOC震驚了吧。雖然這是一張定位遊戲的消費級顯示卡,但它的AI性能也不容小觑。像AI繪畫、AI追蹤目标、圖檔視訊高清化等操作都有不錯的加速效果。當然了,你要拿它跟專業的AI加速卡比那還有差距,不過作為個人使用者來說,目前的加速效果已經能夠讓你提升不小的效率了。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

當然,索泰GeForceRTX4090PGFOC之是以能夠迸發如此強悍的AI性能,也離不開它的豪華配置,全面革新的AdaLovelace架構下TensorCore得以大放異彩,24GB的GDDR6X顯存,提供了充足的舞台供AI盡情發揮。AI性能的飛躍也成為了索泰GeForceRTX4090PGFOC顯示卡的最大亮點。

不過RTX40系顯示卡能夠在AIGC中大放異彩,那還要屬老黃的高瞻遠矚。一方面是因為NVIDIA占據了絕大部分的市場佔有率,另一方面更是NVIDIA早早就在AI市場深耕多年,由上至下地布局通過GPU加速AI的戰略。這一點與如今的CUDA十分相似,超前的部署,讓自己的生态得以完善,那玩家自然也會選擇你的産品。

不止遊戲,AI殺瘋了!體驗史上最強遊戲顯示卡的AI性能

不得不說,現階段你想要一款能夠帶你馳騁AI疆場的顯示卡,那索泰GeForceRTX4090PGFOC應該是你的不二之選。一方面它有強悍的性能,另一方面也有完善的軟體生态支援,實用性相比其他顯示卡來說更佳。頂級的顯示卡,頂級的性能,造就無與倫比的創作潛力。