天天看點

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

作者:中關村線上

自NVIDIA RTX 4080釋出以來,各AIC品牌也相繼推出了自家的不同系列顯示卡,今天為大家帶來的是影馳 GeForce RTX 4080 16GB 星曜 OC顯示卡的評測。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

說起星曜,大家的印象一定是白色、透明,以及星耀娘。在RTX 40系顯示卡中,影馳延續了上一代産品的精髓并在細節處做了較大的改動,尤其是系列IP星耀娘……也更吸引眼球了。

1 影馳 GeForce RTX 4080 16GB 星曜 OC 概覽

本次影馳GeForce RTX 4080 16GB 星曜 OC在包裝上與上一代有較大的差别,由于RTX 40系顯示卡尺寸的增加以及内部配件更豐富,是以整體尺寸更大,全新設計的星耀娘更好看。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

在配件方面,除了輔助供電轉換線,和5V的燈光同步線,還有星曜專屬的 ARGB 支撐架,支援炫彩光效并可自由調節高度。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

影馳GeForce RTX 4080 16GB 星曜 OC依然采用了該系列标志性的鑽石切割透明外殼設計,與上一代相比外殼的貼合性更好,想表達的水晶透明質感也更強。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

本代星曜同樣支援DIY設計,的采用可拆卸的上蓋,内部全白設計友善使用者打造個人專屬外觀。這張顯示卡的整體尺寸為338×139×69(不含擋闆)。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

影馳GeForce RTX 4080 16GB 星曜 OC采用星卓III散熱系統,主動散熱部分為3個直徑100mm、厚度20mm風扇,每個風扇擁有11篇靜霜扇葉,可加大進風量,實作更出色的散熱效果。并且在RTX 40系中,星耀系列着重在風扇四周設計了大量鑽石切割設計,水晶質感更強。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學
影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

影馳GeForce RTX 4080 16GB 星曜 OC側面的系列logo采用千層鏡光效,猶如千層鏡面。搭配正面三個透明ARGB風扇更能提升電競氛圍。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

影馳GeForce RTX 4080 16GB 星曜 OC采用一體壓鑄的金屬背闆,白色噴塗搭配星曜系列的logo标志,簡潔美觀。另外非公版同樣采用較短的PCB闆,尾部能夠看到大面積镂空設計,更進一步保證散熱性能。

星卓III内部的散熱系統擁有4根直徑8mm和5根直徑6mm的鍍鎳複合熱管以及大面積高效能均熱闆和鳍片組成,結合回流焊接工藝,帶來更強的散熱性能,合金加強件也能有效防止顯示卡變形。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

視訊輸出接口上,依舊采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支援4K 120Hz HDR、8K 60Hz HDR,對于目前階段的産品來說完全夠用。另外從标準的擋闆尺寸,也能夠看出本代RTX 40系顯示卡尺寸的增加。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

本次影馳GeForce RTX 4080 16GB 星曜 OC的整卡功耗為320W,采用單16pin的輔助供電。目前已有部分電源廠商釋出了最新的ATX 3.0标準高端電源,自帶12VHPWR的16pin供電接口,最高可支援600W供電。是以不出意外的話,或許下一代顯示卡也将采用這樣的單16pin來供電。

需要注意的是,目前适用于RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯示卡不相容。

2 NVIDIA GeForce RTX 4080 架構淺析

本次釋出的GeForce RTX 40系顯示卡由全新的NVIDIA Ada Lovelace架構打造,TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個半導體,而在RTX 30系顯示卡中為280億個。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的着色器資料吞吐量。

本次釋出的GeForce RTX 4080達到49-TFLOPS,而不久前釋出的RTX 4090則為83-TFLOPs,相比上一代NVIDIA Ampere則隻有40-TFOPs,提升還是非常大的。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

完整AD102核心

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

完整AD103核心

完整的AD103共有7個GPC(其中1個包含4組TPC);40個TPC、80個SM單元。從AD102和AD103兩個完整晶片來看,中間的差距還是不小的。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

本次NVIDIA GeForce RTX 4080使用了削減後的AD103晶片,可以看到相比完整的總GPC沒變,但少了2組TPC,并且NVENC單元也從6個削減到3個。

其中不難看出完整的AD103核心日後必有他用,或許RTX 4080 Ti将采用滿血版的配置。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

其實根據完整的架構圖就能看出,此次Ada架構整體結構性的改動并不大,這一點從SM單元便能清晰印證,同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當然,每個SM單元内部的Tensor Core更新為第四代。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

不過變化最為顯著的,則是第三代光追核心,我們結合兩代架構來看。在第二代光追核心中,包含負責邊界交叉測試的Box Intersection Engine引擎,和負責三角形交叉測試的Triangle Intersection Engine引擎。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),這兩個新的硬體單元可以極大地提升光追性能(具體原理後文詳細介紹)。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

至此,每2個SM單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現5組TPC組成一個GPC單元的情況)。

而每個GPC單元又搭載一個獨立的光栅引擎、兩組ROP分區(每組包含8個ROP單元)。

由于整體架構分析篇幅較長,關于NVIDIA Ada架構的其他新特性就不在這裡介紹了,将在文章末尾以附錄的形式展開說明,有興趣的使用者可翻至最後。

3 測試平台簡介

首先介紹一下測試平台,為了保障影馳GeForce RTX 4080 16GB 星曜 OC的性能發揮,我們的平台也再次進行了全面更新。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

本次測試平台的處理器采用了Intel最新的13代i9-13900K,性能強悍,并且電源進行了着重更新。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

首先看一下GPU-Z的參數,影馳GeForce RTX 4080 16GB 星曜 OC采用AD103核心,晶片面積為379m㎡,相比老大哥RTX 4090小了不少。

擁有9728個CUDA,相比RTX 3080 Ti的10240少5%,不過不同架構下僅用數量來說并不準确,如果數量少性能反而提升,那證明NVIDIA Ada Lovelace的确帶來了相當大的優勢。

影馳GeForce RTX 4080 16GB 星曜 OC的Boost頻率為2580MHz,對比公版的2505MHz有較大提升。

采用16GB GDDR6X Micron顯存,位寬為2560bit,顯存帶寬達到了716.8 GB/s,光栅單元和紋理單元為112和304。

4 理論性能測試

下面先進行的是用來衡量顯示卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分别對應顯示卡在1080P、2K、4K的理論性能,取顯示卡分數實際測試結果如下:

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

這裡着重說明一下,i9-13900K在測試3DMARK FS成績中存在BUG,GPU占用不足,導緻分數較低;這裡的FS成績為i9-13900K處理器關閉小核心測試所得。

在針對顯示卡DX11性能的3DMARKFS套裝測試中,影馳GeForce RTX 4080 16GB 星曜 OC主要對比上一代遊戲旗艦RTX 3080 Ti,其中FS提升了48%;FSE提升了45%;FSU提升了42%,綜合來看相比RTX 3080 Ti的性能提升約為45%。而對比剛剛釋出的老大哥RTX 4090,綜合成績相差23%左右。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,影馳GeForce RTX 4080 16GB 星曜 OC相較RTX 3080 Ti的提升分别為:TS提升50%;TSE提升45%,綜合下來約為48%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

PortRoyal是3DMARK中專門針對光追性能的測試項,影馳GeForce RTX 4080 16GB 星曜 OC相較RTX 3080 Ti的提升約為42%。

綜合來看,影馳GeForce RTX 4080 16GB 星曜 OC的理論性能相較GeForce RTX 3080 Ti的提升約為45%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯示卡基準測試。要運作此測試,顯示卡必須支援 DirectX 12 Ultimate 并包含 6GB 及以上顯存。

這項測試結合了實時光線追蹤和傳統渲染技術來測量顯示卡性能。場景含有光線追蹤反射、實時全局光照、網格着色器、體積照明、粒子和後處理效果。并且有意思的是,Speed Way測試支援自由探索場景,可檢視光照及錄影機設定的改變如何影響視覺效果。

在該項測試中,我們對比了剛剛釋出的RTX 4090顯示卡,從1080p分辨率到8K的差距依次為:39%/39%/42%/48%,可以看到在越高的分辨率下RTX 4090大顯存的優勢越明顯,尤其8K分辨率。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。

由于該項測試類别較多,僅展示影馳GeForce RTX 4080 16GB 星曜 OC顯示卡自身成績,其實可以看到在DLSS 3的加持下,分辨率越高提升越明顯,尤其在8K分辨率,是從無法運作到流暢的标準。

5 正常遊戲 性能測試

由于本次RTX 40系加入了DLSS 3新技術,是以後面會進行單獨測試,這裡依然選擇主流的幾款3A大作進行遊戲性能對比。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

首先在《地平線5》中,可以明顯看到,雖然我們使用了i9-13900K處理器,但在1080p分辨率下依然能感受到幀數瓶頸。

性能方面,影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為:1080p提升48%;2K提升64%;4K提升62%,綜合提升58%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

在《刺客信條:英靈殿》中,影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為:1080p提升75%;2K提升74%;4K提升50%,綜合提升66%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

在《無主之地3》中,影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為:1080p提升56%;2K提升39%;4K提升27%,綜合提升41%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

《光明記憶:無限》的光追測試軟體是獨立于遊戲的測試工具,比遊戲中用到的光線追蹤技術更多,測試條件為“RTX最高/DLSS品質”。是以測試幀數相對較低,但實際遊戲配置相當親民。

性能方面,影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為:1080p提升43%;2K提升43%;4K提升41%,綜合提升42%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

在另外一款國産遊戲《邊境》的跑分軟體中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS品質”下進行。

在《邊境》中,影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為:1080p提升48%;2K提升54%;4K提升49%,綜合提升50%。

6 DLSS 3性能測試

由于本次新技術DLSS 3的推出,将有35款遊戲将于近期推出全新的DLSS 3功能,本次我們也拿到了部分遊戲的測試版。

其中11月15日已有10款加入DLSS 3的遊戲,包括《逆水寒》、《微軟模拟飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠:重制版》、《超級人類》。

另外還有《WRC Generations》、《極品飛車:不羁》、《戰錘40K:暗潮》将在RTX 4080推出後不久相繼釋出,在聖誕前都可以玩上這些包含DLSS 3的遊戲。

下面就讓我們來實際測試,擁有全新的DLSS 3的遊戲,能達到何種幀率。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

本次DLSS 3的測試圖表比較繁瑣,并且增加了1% Low FPS和延遲的測試,普通的FPS好了解,那麼這個1% Low FPS是什麼意思。

首先,遊戲benchmark通常測試的FPS即為,一段時間内的遊戲平均幀。而1% Low FPS則是将一段時間内的幀數從大到小排列,取最小的1%出來,再對這1%的數求平均值。

其實簡單來說,這兩個數值都不能代表我們在遊玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的裡面求平均,更謹慎一些。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學
影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

看懂了1% Low FPS,我們再來看這張圖表,在坐标軸左側的為延遲(越低越好),坐标軸右側的均為幀數(越高越好),并且由于牽扯到正負坐标,是以兩側的值有可能會不同。

在《微軟模拟飛行》中,對于處理器的要求異常高,不過本次我們使用了旗艦級的13900k可以明顯感受到性能的強大,在4K分辨率下關閉DLSS不會出現與DLSS 2分數相同的情況。

而在DLSS 3中,我們能夠明顯看到幀數再次大幅提升,要知道我們所有DLSS 3的測試均在4K分辨率下進行。看來利用幀生成來突破CPU瓶頸限制,實際表現确實如宣傳的那樣神奇。

不過幀生成并不是毫無弊端,這也是為什麼此次測試加入了延遲。并且在開啟DLSS 3後,NVIDIA Reflex是捆綁開啟的。但相對于DLSS 2增加的這點延遲,在實際體驗中的感受并不強。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

《幻塔》是本次新增的DLSS 3測試,作為一款移動端和PC端多平台的遊戲,在PC端中已經加入了光線追蹤以及DLSS,并且相當耗費性能。

我們使用影馳GeForce RTX 4080 16GB 星曜 OC在關閉DLSS後,預設最高畫質僅有45幀,延遲也達到了100毫秒。不過在開啟DLSS 2後有明顯改善,而DLSS 3則讓這款遊戲在4K分辨率開啟光追後達到了電競級幀數。

在《賽博朋克2077》中的資料反映比較真實穩定,可以看到在DLSS關的光線追蹤最高的情況下,即便影馳GeForce RTX 4080 16GB 星曜 OC顯示卡也隻有29幀,并且延遲達到了127.6毫秒。

而在開啟DLSS 3後,幀數為108,提升了272%。雖然相比DLSS 2的延遲高了13毫秒左右,但依然維持在較低的水準。

《瘟疫傳說:安魂曲》目前已經釋出,相信不少玩家都感受到了其精美的畫面,不過除了顯示卡需求較高,同屏30萬隻老鼠對于CPU的要求也異常高。

不過由于DLSS 3的特性便是無視CPU BUNDLE,強行提高幀數。影馳GeForce RTX 4080 16GB 星曜 OC在DLSS 3和DLSS關之間的幀數提升達到了145%。可以看到雖然DLSS 3的延遲有所增加,但仍然比DLSS關閉後要低。

目前《F1 22》的資料測試同樣有問題,在DLSS關和DLSS 2中均沒有延遲資料。這一組主要看幀數的提升。其中DLSS 3相比DLSS關的幀數提升了160%,DLSS 2的提升也達到了130%。

在國産遊戲《逆水寒》的光追測試中,本次我們選擇的測試demo采用了真正的全局光照。是以在我嘗試關閉DLSS運作後,電腦直接崩潰。

是以關閉DLSS測試行不通,這組資料主要看開啟DLSS後的幀數變化。作為從無法測試到60幀的流暢水準,DLSS 3簡單來說是提升了60倍的幀率,但這确實質的飛躍。

《暗影火炬城》也是本次新增的DLSS 3測試,在開啟光追後對于性能要求明顯提高。其中DLSS 3相比DLSS關的幀數提升了119%,DLSS 2的提升則達到了109%。

《毀滅全人類2》是一款開放世界“爽遊”,玩家将扮演外星人入侵地球。在開啟DLSS 3後不僅幀數相較關閉有84%的提升。

在Unity的測試軟體中,将會自動播放一段即時演算視訊,我們通過FrameView記錄全程。不過由于程式僅提供關閉和開啟DLSS 3的操作,是以我們取兩組分數。

可以看到在關閉DLSS 3後不僅平均FPS隻有23幀,延遲也高達189.5ms。而開啟DLSS 3後提升非常大,性能提升達到了249%,示範效果肉眼可見的流暢。

在UE5提供的測試遊戲中,友善的給出了DLSS的快捷測試,這裡分為DLSS關(超分辨率關+幀生成關+Reflex關);DLSS 2(超分辨率性能+幀生成關+Reflex開);DLSS 3(超分辨率性能+幀生成開+Reflex開)三檔測試。

另外,在DLSS關閉狀态下,FrameView軟體無法監測延遲。這組對比中,由于場景受限,我們選擇固定鏡頭測試,是以三組資料1% Low幀數相對較高。

當然針對畫質方面,我們也進行了測試,在上圖中我們截取《賽博朋克2077》中的一角,可以看到在兩種DLSS模式下,相較原畫質幾乎沒有明顯變化,隻在栅欄處的光影效果有所不同,但對于如此大幅度的幀數提升,這點瑕疵幾乎可以忽略不計。

7 生産力工具測試

雖然本次評測顯示卡為80級别産品,但16GB的大顯存對于内容創作者同樣是有很大幫主。首先我們使用SPECviewperf 13這款工業、專業軟體跑分測試。

對比顯示卡為RTX 4090顯示卡以及上一代遊戲旗艦RTX 3080 Ti顯示卡。

SPECviewperf 13

在SPECviewperf 13的軟體測試中,可以看到部分軟體對比上一代遊戲旗艦RTX 3080 Ti的提升非常明顯,其中3DS MAX的提升幅度達到86%。不過由于我們為1080p下的軟體環境測試,RTX 4090在顯存方面的優勢并不明顯。

由于影馳GeForce RTX 4080 16GB 星曜 OC的高頻高功耗,相比RTX 4080公版成績也有非常大的提升,甚至在CREO中超越了RTX 4090。

Blender

Blender是一款專業的三維渲染軟體,本次推出了固定的benchmark跑分軟體,省去了安裝軟體下載下傳素材的麻煩。這款跑分軟體隻需下載下傳好啟動程式,軟體會自動渲染測試monster/junkshop/classroom共三個場景。

上圖為GeForce RTX 4090顯示卡得分,分别為6504/2982/3034分,平均4173分;下圖為影馳GeForce RTX 4080 16GB 星曜 OC顯示卡得分,分别為4881/2243/2330分,平均3151分。

兩張顯示卡的性能差距在32%左右,相比3DMARK的純理論分數差距較大,畢竟90級顯示卡曾經是過去的TITAN,地位不容撼動。

DaVinci_Resolve_18.0.2

下面我們通過達芬奇來對NVIDIA AV1編碼進行實測,對比輸出為H.264編碼。輸出尺寸為4K UHD,品質選擇最好,來看看兩組成品有何差別。

由于我們沒有固定碼率,而選擇了相同的畫面品質,可以看到在同品質下,AV1所生成的視訊碼率更低,幾乎為H.264的三分之一。

而低碼率也就意味着視訊體積越小,該段視訊采用AV1編碼的大小為H.264編碼的四分之一,對于硬碟的空間節省非常明顯,下面再來看看兩段視訊的畫質表現如何。

左H264 右AV1

我們選擇NVIDIA的ICAT軟體進行分屏對比,将這段4K視訊放大500%後檢視噪點情況。可以看到使用AV1編碼遠處房屋的像素過度更平滑,幾乎沒有很明顯的顆粒感,進而使場景看起來更幹淨。

當然AV1也不是沒有遺憾,就是目前很多點傳播放器還不支援AV1解碼,泛用性沒有那麼高,但随着越來越多的産品支援AV1編碼,相信流通起來還是很快的。

8 溫度及功耗測試

功耗測試中,我們選擇FurMark軟體進行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯示卡自身。

可以看到影馳GeForce RTX 4080 16GB 星曜 OC這張顯示卡在45分鐘左右的拷機中,峰值溫度一直在61℃左右,熱點溫度也僅有70℃左右,溫度控制的非常好。

另外新版本的GPUZ還新增了對16pin電源接口的監控功能,讓使用者可以通過傳感器擷取功率輸入資訊,進而及時發現一些異常情況。

遊戲 1080p 1440p 4K
Control 212 W 288 W 297 W
Cyberpunk 2077 224 W 275 W 287 W
Forza Horizon 5 172 W 197 W 238 W
Guardians of the Galaxy 177 W 233 W 266 W
Metro Exodus 205 W 262 W 295 W

值得一提的是,本次我們在拷機測試中最大闆載功耗為320W左右,TDP達到了99%。但在實際遊戲測試中,大部分3A遊戲能夠在260W左右,一些非常耗費性能的3A遊戲才能夠到達290-300W左右,遠低于額定功耗。

是以在實際的使用過程中,由于不同遊戲負載不同,GPU的實際功耗是動态變化的,類似于FPS随時間的變化,RTX 40系列很難觸及功耗牆。

是以從這一點來看,上一代遊戲旗艦RTX 3080 Ti整卡功耗為350W,而在RTX 4080中,即便是耗費性能最高的《Control 》,也未達到300W。并且RTX 4080的綜合性能提升44%左右,是一款能耗比非常出色的次世代顯示卡。

9 千重鏡面 光影美學

在RTX 40系顯示卡中,影馳的星曜系列在設計理念上沿襲了RTX 30系的水晶切割、純白、透明等關鍵詞,但細節方面的進步更加明顯。透明外殼整體的貼合度更高,并大量減少了切割面的數量,轉而集中在風扇周圍,水晶質感更強。

作為目前為數不多,以純白配色為主題的顯示卡,星曜系列也深知玩家的訴求:純白勝雪;光影美學,對于想要打造純白整機的使用者是非常不錯的選擇。

性能方面,影馳GeForce RTX 4080 16GB 星曜 OC相比較上一代遊戲旗艦RTX 3080 Ti的理論性能,綜合提升約為45%,相應的對比RTX 3080提升約為56%左右。

目前這張RTX 4080在4K分辨率下,3A大作基本都可以達到百幀,是以顯示器是目前更換顯示卡的主要瓶頸,因為相信在此之前即便擁有4K顯示器的使用者,大部分也是60Hz。但如果你擁有一張RTX 4080,仍然使用60Hz的顯示器,會浪費掉大部分顯示卡性能。

10 附錄1-NVIDIA Ada Lovelace架構解析

Shader Execution Reordering (SER)着色器執行重排序

SER主要的作用是提升着色器性能,它可以将效率低下的工作負載,動态重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。

簡單地說,GPU在執行類似工作的時候效率最高。但随着光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。是以這樣就為着色器建立了大量的、發散的,效率低下的工作負載。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

SER則可以将這些雜亂的指令重新分門别類,動态重組為更高效的工作負載。根據NVIDIA的說法,SER可将着色器性能最多提升2倍,并将遊戲幀率最高提升25%。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

舉個簡單的例子,當光線第一次從發射端到碰撞端是非常有規律的射線,而碰撞到物體後的二次光追,則會出現大量發散的、無規律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以将這些指令進行二次排序,以發揮出着色器的最大性能。

不過好在這麼實用的功能并不是RTX 40系的專利,它是一個易于內建的SDK,目前需要遊戲開發商內建在遊戲中。另外由于它是一個通用的邏輯,後續也有可能直接內建在Windows的API中,這樣遊戲開發者就無需特意引用,直接調用系統API即可。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

可以說SER對于手持RTX 20系及以上(能夠開啟光線追蹤)的N卡使用者來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。

第三代 RT Cores

RT Core的作用在于更快的光線追蹤計算能力,如果說在RTX 30系顯示卡中,想要暢享4K高幀率遊戲有點吃力,那麼RTX 40系顯示卡中,将顯得輕而易舉。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

在GeForce RTX 4090這張顯示卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯示卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這隻能說明,這張4090并非Ada Lovelace架構的最終形态。

Opacity Micro-Map Engines

在第三代RT Cores中引入了兩個重要的硬體單元,首先是Opacity Micro-Map Engines,可以了解為微映射透明度引擎,它主要的作用是優化光線追蹤渲染,可大幅減輕着色器的工作負擔。

比如樹葉之類的複雜物體,不同的光線都會影響它的表現狀态,以及樹葉之間的光線反彈,是以對于光線追蹤的計算量是巨大的。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

不過Opacity Micro-Map Engines可以将光線追蹤特性烘焙到不透明蒙版中,是以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來,進而極大減輕着色器的工作負擔。

Displaced Micro-Mesh Engines(DMM)

Displaced Micro-Mesh Engines可了解為微網格置換引擎,它建構光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

DMM由第三代RT core本地處理,與前幾代相比,它隻使用基本三角形渲染複雜幾何圖形,極大減少了存儲和處理需求。

具體的工作原理從圖中一目了然,新的DMM可以将面數非常多的複雜圖形做簡化,創造出簡單的模型,但整體的光線追蹤效果不變。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

通過一些模型資料我們可以具體看到,新的DMM将模型簡化了多少。原本1100萬三角面的模型,經過簡化後,隻有15萬左右的微網格,BVH的建構速度提升了8.5倍,小了6.5倍。

而這還不是最誇張的,越複雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。

第四代 Tensor Cores

除了光追單元的更新外,第四代張量核心的更新更加恐怖。它采用了新的FP8張量引擎,在GeForce RTX 4090這張顯示卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。

注意這裡的機關——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

DLSS 3

本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的更新之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。

全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來隻能生成像素。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。

在GPU受限的遊戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠将幀率提高2倍,DLSS 3則能夠提升4倍。

本次DLSS 3跨越了一個大版本,從想法和原理上也再度更新,完全“猜想”1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。

不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。是以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

這也不負NVIDIA給它起了個“神經網絡渲染新時代”的名号。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上“巨人的肩膀”。當然,連年的創新,苦的是手持上一代顯示卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯示卡。

New Optical Flow Accelerator

New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯示卡獨享。

光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀内的光流場,能夠捕捉遊戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素資訊。并分别計算運動矢量和光流來獲得精準的陰影重建效果。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等資訊。并在第二幀中查找比對的像素區域,計算幀之間的內插補點。

如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那麼DLSS 3除了這些,還能夠“猜”出下一幀的畫面。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

另外由于DLSS 3的幀生成是在GPU中處理和運作的,是以即使遇到CPU瓶頸的遊戲,AI同樣能夠提升幀率。這也是為什麼在此次釋出會中說到,DLSS 3能夠突破CPU的限制來提升幀數。

雙AV1編碼器

本次更新的第八代NVENC編碼器可以說是直播、視訊、後期工作者的極大福音。它首次加入了對AV1編碼的支援,最顯而易見的效果就是直播。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

相比傳統的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質将更好。目前大部分直播的分辨率和清晰度,均受限于平台規定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,采用AV1編碼的清晰度明顯比H.264更高。

說起直播,OBS相信大家都不陌生,在10月份即将釋出的更新檔中,OBS就加入了對NVENC的AV1編碼支援

當然,直播隻是我們更容易見到的AV1優勢,在視訊工作的所有環節,AV1編碼都可以帶來極大提升。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

是以,如圖所見。NVIDIA已經為廣大使用者鋪好了一條完整的生态鍊,從編碼API、軟體、平台到播放器,将全面支援AV1編碼。

另外再說一下NVIDIA一直強調的雙AV1編碼。顧名思義,即部分顯示卡内搭載了兩個編碼器,它所帶來的效果也是顯而易見的。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣适用,感興趣的使用者不妨親自體驗一下。

除了導出速度,8K 60幀的視訊錄制在以前簡直難以想象,而雙編碼器的好處就是可以将圖像一分為二,兩個編碼器分别處理7680×2160的圖像資訊,最後拼合完整。

關于編碼部分,可能大部分使用者的感受不深,但當有一天,你想錄屏的時候,卻發現顯示卡不支援,才會發覺它的重要性……

随着圖像逐漸進入到超清時代,硬體編碼和渲染幾乎已經成為不可或缺的幫手。雖然論品質,硬體編碼仍不及CPU軟編,但軟編做到了極限畫質,也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬體編碼中,品質和時間也在不斷地被挑戰和重新整理。

11 附錄2-Ada Lovelace是誰?

Ada Lovelace(1815-1852)是英國數學家、計算機程式創始人,建立了循環和子程式概念,被稱為世界上第一位程式員。

Ada從小對數學有極高天賦,其父稱她為“平行四邊形公主”,後來的合作夥伴Charles Babbage稱她為“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚後的她對數學熱情不減。

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程式員。

而以她名字命名的語言——ada語言,已經成為了美國軍方開發戰鬥機等尖端武器的語言。

從幾行簡短的生平簡介中,不難看出Ada的生命雖然隻經曆了短暫的37個春秋,但卻足以被後人銘記。

這也是為什麼此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan。

(8078273)