影馳RTX 4080 16GB 星曜OC評測千重鏡面光影美學

自NVIDIA RTX 4080釋出以來，各AIC品牌也相繼推出了自家的不同系列顯示卡，今天為大家帶來的是影馳 GeForce RTX 4080 16GB 星曜 OC顯示卡的評測。

說起星曜，大家的印象一定是白色、透明，以及星耀娘。在RTX 40系顯示卡中，影馳延續了上一代産品的精髓并在細節處做了較大的改動，尤其是系列IP星耀娘……也更吸引眼球了。

1 影馳 GeForce RTX 4080 16GB 星曜 OC 概覽

本次影馳GeForce RTX 4080 16GB 星曜 OC在包裝上與上一代有較大的差别，由于RTX 40系顯示卡尺寸的增加以及内部配件更豐富，是以整體尺寸更大，全新設計的星耀娘更好看。

在配件方面，除了輔助供電轉換線，和5V的燈光同步線，還有星曜專屬的 ARGB 支撐架，支援炫彩光效并可自由調節高度。

影馳GeForce RTX 4080 16GB 星曜 OC依然采用了該系列标志性的鑽石切割透明外殼設計，與上一代相比外殼的貼合性更好，想表達的水晶透明質感也更強。

本代星曜同樣支援DIY設計，的采用可拆卸的上蓋，内部全白設計友善使用者打造個人專屬外觀。這張顯示卡的整體尺寸為338×139×69（不含擋闆）。

影馳GeForce RTX 4080 16GB 星曜 OC采用星卓III散熱系統，主動散熱部分為3個直徑100mm、厚度20mm風扇，每個風扇擁有11篇靜霜扇葉，可加大進風量，實作更出色的散熱效果。并且在RTX 40系中，星耀系列着重在風扇四周設計了大量鑽石切割設計，水晶質感更強。

影馳GeForce RTX 4080 16GB 星曜 OC側面的系列logo采用千層鏡光效，猶如千層鏡面。搭配正面三個透明ARGB風扇更能提升電競氛圍。

影馳GeForce RTX 4080 16GB 星曜 OC采用一體壓鑄的金屬背闆，白色噴塗搭配星曜系列的logo标志，簡潔美觀。另外非公版同樣采用較短的PCB闆，尾部能夠看到大面積镂空設計，更進一步保證散熱性能。

星卓III内部的散熱系統擁有4根直徑8mm和5根直徑6mm的鍍鎳複合熱管以及大面積高效能均熱闆和鳍片組成，結合回流焊接工藝，帶來更強的散熱性能，合金加強件也能有效防止顯示卡變形。

視訊輸出接口上，依舊采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支援4K 120Hz HDR、8K 60Hz HDR，對于目前階段的産品來說完全夠用。另外從标準的擋闆尺寸，也能夠看出本代RTX 40系顯示卡尺寸的增加。

本次影馳GeForce RTX 4080 16GB 星曜 OC的整卡功耗為320W，采用單16pin的輔助供電。目前已有部分電源廠商釋出了最新的ATX 3.0标準高端電源，自帶12VHPWR的16pin供電接口，最高可支援600W供電。是以不出意外的話，或許下一代顯示卡也将采用這樣的單16pin來供電。

需要注意的是，目前适用于RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯示卡不相容。

2 NVIDIA GeForce RTX 4080 架構淺析

本次釋出的GeForce RTX 40系顯示卡由全新的NVIDIA Ada Lovelace架構打造，TSMC 4N NVIDIA定制工藝，旗艦核心AD102達到了恐怖的760億個半導體，而在RTX 30系顯示卡中為280億個。

與上一代NVIDIA Ampere相比，NVIDIA Ada Lovelace在相同功率下，具有2倍以上的性能提升，最高可達到90-TFLOPS的着色器資料吞吐量。

本次釋出的GeForce RTX 4080達到49-TFLOPS，而不久前釋出的RTX 4090則為83-TFLOPs，相比上一代NVIDIA Ampere則隻有40-TFOPs，提升還是非常大的。

完整AD102核心

完整AD103核心

完整的AD103共有7個GPC（其中1個包含4組TPC）；40個TPC、80個SM單元。從AD102和AD103兩個完整晶片來看，中間的差距還是不小的。

本次NVIDIA GeForce RTX 4080使用了削減後的AD103晶片，可以看到相比完整的總GPC沒變，但少了2組TPC，并且NVENC單元也從6個削減到3個。

其中不難看出完整的AD103核心日後必有他用，或許RTX 4080 Ti将采用滿血版的配置。

其實根據完整的架構圖就能看出，此次Ada架構整體結構性的改動并不大，這一點從SM單元便能清晰印證，同樣的FP32 CUDA核心，同樣的FP32/INT32混合CUDA核心，同樣的L1級緩存等等。當然，每個SM單元内部的Tensor Core更新為第四代。

不過變化最為顯著的，則是第三代光追核心，我們結合兩代架構來看。在第二代光追核心中，包含負責邊界交叉測試的Box Intersection Engine引擎，和負責三角形交叉測試的Triangle Intersection Engine引擎。

而在第三代光追核心中，還增加了兩個新的引擎：Opacity Micro-Map Engines（OMM）和Displaced Micro-Mesh Engines（DMM），這兩個新的硬體單元可以極大地提升光追性能（具體原理後文詳細介紹）。

至此，每2個SM單元組成一個TPC單元，每6組TPC單元組成一個完整的GPC頂層單元（在部分核心中，會出現5組TPC組成一個GPC單元的情況）。

而每個GPC單元又搭載一個獨立的光栅引擎、兩組ROP分區（每組包含8個ROP單元）。

由于整體架構分析篇幅較長，關于NVIDIA Ada架構的其他新特性就不在這裡介紹了，将在文章末尾以附錄的形式展開說明，有興趣的使用者可翻至最後。

3 測試平台簡介

首先介紹一下測試平台，為了保障影馳GeForce RTX 4080 16GB 星曜 OC的性能發揮，我們的平台也再次進行了全面更新。

本次測試平台的處理器采用了Intel最新的13代i9-13900K，性能強悍，并且電源進行了着重更新。

首先看一下GPU-Z的參數，影馳GeForce RTX 4080 16GB 星曜 OC采用AD103核心，晶片面積為379m㎡，相比老大哥RTX 4090小了不少。

擁有9728個CUDA，相比RTX 3080 Ti的10240少5%，不過不同架構下僅用數量來說并不準确，如果數量少性能反而提升，那證明NVIDIA Ada Lovelace的确帶來了相當大的優勢。

影馳GeForce RTX 4080 16GB 星曜 OC的Boost頻率為2580MHz，對比公版的2505MHz有較大提升。

采用16GB GDDR6X Micron顯存，位寬為2560bit，顯存帶寬達到了716.8 GB/s，光栅單元和紋理單元為112和304。

4 理論性能測試

下面先進行的是用來衡量顯示卡DX11理論性能的3DMARKFS套裝：FS,FSE,FSU三者分别對應顯示卡在1080P、2K、4K的理論性能，取顯示卡分數實際測試結果如下：

這裡着重說明一下，i9-13900K在測試3DMARK FS成績中存在BUG，GPU占用不足，導緻分數較低；這裡的FS成績為i9-13900K處理器關閉小核心測試所得。

在針對顯示卡DX11性能的3DMARKFS套裝測試中，影馳GeForce RTX 4080 16GB 星曜 OC主要對比上一代遊戲旗艦RTX 3080 Ti，其中FS提升了48%；FSE提升了45%；FSU提升了42%，綜合來看相比RTX 3080 Ti的性能提升約為45%。而對比剛剛釋出的老大哥RTX 4090，綜合成績相差23%左右。

而在針對DX12環境下的Time Spy和Time Spy Extreme測試中，影馳GeForce RTX 4080 16GB 星曜 OC相較RTX 3080 Ti的提升分别為：TS提升50%；TSE提升45%，綜合下來約為48%。

PortRoyal是3DMARK中專門針對光追性能的測試項，影馳GeForce RTX 4080 16GB 星曜 OC相較RTX 3080 Ti的提升約為42%。

綜合來看，影馳GeForce RTX 4080 16GB 星曜 OC的理論性能相較GeForce RTX 3080 Ti的提升約為45%。

Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯示卡基準測試。要運作此測試，顯示卡必須支援 DirectX 12 Ultimate 并包含 6GB 及以上顯存。

這項測試結合了實時光線追蹤和傳統渲染技術來測量顯示卡性能。場景含有光線追蹤反射、實時全局光照、網格着色器、體積照明、粒子和後處理效果。并且有意思的是，Speed Way測試支援自由探索場景，可檢視光照及錄影機設定的改變如何影響視覺效果。

在該項測試中，我們對比了剛剛釋出的RTX 4090顯示卡，從1080p分辨率到8K的差距依次為：39%/39%/42%/48%，可以看到在越高的分辨率下RTX 4090大顯存的優勢越明顯，尤其8K分辨率。

另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。

由于該項測試類别較多，僅展示影馳GeForce RTX 4080 16GB 星曜 OC顯示卡自身成績，其實可以看到在DLSS 3的加持下，分辨率越高提升越明顯，尤其在8K分辨率，是從無法運作到流暢的标準。

5 正常遊戲性能測試

由于本次RTX 40系加入了DLSS 3新技術，是以後面會進行單獨測試，這裡依然選擇主流的幾款3A大作進行遊戲性能對比。

首先在《地平線5》中，可以明顯看到，雖然我們使用了i9-13900K處理器，但在1080p分辨率下依然能感受到幀數瓶頸。

性能方面，影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為：1080p提升48%；2K提升64%；4K提升62%，綜合提升58%。

在《刺客信條：英靈殿》中，影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為：1080p提升75%；2K提升74%；4K提升50%，綜合提升66%。

在《無主之地3》中，影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為：1080p提升56%；2K提升39%；4K提升27%，綜合提升41%。

《光明記憶：無限》的光追測試軟體是獨立于遊戲的測試工具，比遊戲中用到的光線追蹤技術更多，測試條件為“RTX最高/DLSS品質”。是以測試幀數相對較低，但實際遊戲配置相當親民。

性能方面，影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為：1080p提升43%；2K提升43%；4K提升41%，綜合提升42%。

在另外一款國産遊戲《邊境》的跑分軟體中，情況基本與《光明記憶：無限》相同，測試條件均在“RTX最高/DLSS品質”下進行。

在《邊境》中，影馳GeForce RTX 4080 16GB 星曜 OC相比GeForce RTX 3080 Ti的提升分别為：1080p提升48%；2K提升54%；4K提升49%，綜合提升50%。

6 DLSS 3性能測試

由于本次新技術DLSS 3的推出，将有35款遊戲将于近期推出全新的DLSS 3功能，本次我們也拿到了部分遊戲的測試版。

其中11月15日已有10款加入DLSS 3的遊戲，包括《逆水寒》、《微軟模拟飛行》、《毀滅全人類2：重新探測》、《瘟疫傳說：安魂曲》、《光明記憶：無限》、《暗影火炬城》、《F1 22》、《生死輪回》、《漫威蜘蛛俠：重制版》、《超級人類》。

另外還有《WRC Generations》、《極品飛車：不羁》、《戰錘40K：暗潮》将在RTX 4080推出後不久相繼釋出，在聖誕前都可以玩上這些包含DLSS 3的遊戲。

下面就讓我們來實際測試，擁有全新的DLSS 3的遊戲，能達到何種幀率。

本次DLSS 3的測試圖表比較繁瑣，并且增加了1% Low FPS和延遲的測試，普通的FPS好了解，那麼這個1% Low FPS是什麼意思。

首先，遊戲benchmark通常測試的FPS即為，一段時間内的遊戲平均幀。而1% Low FPS則是将一段時間内的幀數從大到小排列，取最小的1%出來，再對這1%的數求平均值。

其實簡單來說，這兩個數值都不能代表我們在遊玩時，具體哪一刻的感受，但FPS更注重整體，而1% Low FPS則是從最差的裡面求平均，更謹慎一些。

看懂了1% Low FPS，我們再來看這張圖表，在坐标軸左側的為延遲（越低越好），坐标軸右側的均為幀數（越高越好），并且由于牽扯到正負坐标，是以兩側的值有可能會不同。

在《微軟模拟飛行》中，對于處理器的要求異常高，不過本次我們使用了旗艦級的13900k可以明顯感受到性能的強大，在4K分辨率下關閉DLSS不會出現與DLSS 2分數相同的情況。

而在DLSS 3中，我們能夠明顯看到幀數再次大幅提升，要知道我們所有DLSS 3的測試均在4K分辨率下進行。看來利用幀生成來突破CPU瓶頸限制，實際表現确實如宣傳的那樣神奇。

不過幀生成并不是毫無弊端，這也是為什麼此次測試加入了延遲。并且在開啟DLSS 3後，NVIDIA Reflex是捆綁開啟的。但相對于DLSS 2增加的這點延遲，在實際體驗中的感受并不強。

《幻塔》是本次新增的DLSS 3測試，作為一款移動端和PC端多平台的遊戲，在PC端中已經加入了光線追蹤以及DLSS，并且相當耗費性能。

我們使用影馳GeForce RTX 4080 16GB 星曜 OC在關閉DLSS後，預設最高畫質僅有45幀，延遲也達到了100毫秒。不過在開啟DLSS 2後有明顯改善，而DLSS 3則讓這款遊戲在4K分辨率開啟光追後達到了電競級幀數。

在《賽博朋克2077》中的資料反映比較真實穩定，可以看到在DLSS關的光線追蹤最高的情況下，即便影馳GeForce RTX 4080 16GB 星曜 OC顯示卡也隻有29幀，并且延遲達到了127.6毫秒。

而在開啟DLSS 3後，幀數為108，提升了272%。雖然相比DLSS 2的延遲高了13毫秒左右，但依然維持在較低的水準。

《瘟疫傳說：安魂曲》目前已經釋出，相信不少玩家都感受到了其精美的畫面，不過除了顯示卡需求較高，同屏30萬隻老鼠對于CPU的要求也異常高。

不過由于DLSS 3的特性便是無視CPU BUNDLE，強行提高幀數。影馳GeForce RTX 4080 16GB 星曜 OC在DLSS 3和DLSS關之間的幀數提升達到了145%。可以看到雖然DLSS 3的延遲有所增加，但仍然比DLSS關閉後要低。

目前《F1 22》的資料測試同樣有問題，在DLSS關和DLSS 2中均沒有延遲資料。這一組主要看幀數的提升。其中DLSS 3相比DLSS關的幀數提升了160%，DLSS 2的提升也達到了130%。

在國産遊戲《逆水寒》的光追測試中，本次我們選擇的測試demo采用了真正的全局光照。是以在我嘗試關閉DLSS運作後，電腦直接崩潰。

是以關閉DLSS測試行不通，這組資料主要看開啟DLSS後的幀數變化。作為從無法測試到60幀的流暢水準，DLSS 3簡單來說是提升了60倍的幀率，但這确實質的飛躍。

《暗影火炬城》也是本次新增的DLSS 3測試，在開啟光追後對于性能要求明顯提高。其中DLSS 3相比DLSS關的幀數提升了119%，DLSS 2的提升則達到了109%。

《毀滅全人類2》是一款開放世界“爽遊”，玩家将扮演外星人入侵地球。在開啟DLSS 3後不僅幀數相較關閉有84%的提升。

在Unity的測試軟體中，将會自動播放一段即時演算視訊，我們通過FrameView記錄全程。不過由于程式僅提供關閉和開啟DLSS 3的操作，是以我們取兩組分數。

可以看到在關閉DLSS 3後不僅平均FPS隻有23幀，延遲也高達189.5ms。而開啟DLSS 3後提升非常大，性能提升達到了249%，示範效果肉眼可見的流暢。

在UE5提供的測試遊戲中，友善的給出了DLSS的快捷測試，這裡分為DLSS關（超分辨率關+幀生成關+Reflex關）；DLSS 2（超分辨率性能+幀生成關+Reflex開）；DLSS 3（超分辨率性能+幀生成開+Reflex開）三檔測試。

另外，在DLSS關閉狀态下，FrameView軟體無法監測延遲。這組對比中，由于場景受限，我們選擇固定鏡頭測試，是以三組資料1% Low幀數相對較高。

當然針對畫質方面，我們也進行了測試，在上圖中我們截取《賽博朋克2077》中的一角，可以看到在兩種DLSS模式下，相較原畫質幾乎沒有明顯變化，隻在栅欄處的光影效果有所不同，但對于如此大幅度的幀數提升，這點瑕疵幾乎可以忽略不計。

7 生産力工具測試

雖然本次評測顯示卡為80級别産品，但16GB的大顯存對于内容創作者同樣是有很大幫主。首先我們使用SPECviewperf 13這款工業、專業軟體跑分測試。

對比顯示卡為RTX 4090顯示卡以及上一代遊戲旗艦RTX 3080 Ti顯示卡。

SPECviewperf 13

在SPECviewperf 13的軟體測試中，可以看到部分軟體對比上一代遊戲旗艦RTX 3080 Ti的提升非常明顯，其中3DS MAX的提升幅度達到86%。不過由于我們為1080p下的軟體環境測試，RTX 4090在顯存方面的優勢并不明顯。

由于影馳GeForce RTX 4080 16GB 星曜 OC的高頻高功耗，相比RTX 4080公版成績也有非常大的提升，甚至在CREO中超越了RTX 4090。

Blender

Blender是一款專業的三維渲染軟體，本次推出了固定的benchmark跑分軟體，省去了安裝軟體下載下傳素材的麻煩。這款跑分軟體隻需下載下傳好啟動程式，軟體會自動渲染測試monster/junkshop/classroom共三個場景。

上圖為GeForce RTX 4090顯示卡得分，分别為6504/2982/3034分，平均4173分；下圖為影馳GeForce RTX 4080 16GB 星曜 OC顯示卡得分，分别為4881/2243/2330分，平均3151分。

兩張顯示卡的性能差距在32%左右，相比3DMARK的純理論分數差距較大，畢竟90級顯示卡曾經是過去的TITAN，地位不容撼動。

DaVinci_Resolve_18.0.2

下面我們通過達芬奇來對NVIDIA AV1編碼進行實測，對比輸出為H.264編碼。輸出尺寸為4K UHD，品質選擇最好，來看看兩組成品有何差別。

由于我們沒有固定碼率，而選擇了相同的畫面品質，可以看到在同品質下，AV1所生成的視訊碼率更低，幾乎為H.264的三分之一。

而低碼率也就意味着視訊體積越小，該段視訊采用AV1編碼的大小為H.264編碼的四分之一，對于硬碟的空間節省非常明顯，下面再來看看兩段視訊的畫質表現如何。

左H264 右AV1

我們選擇NVIDIA的ICAT軟體進行分屏對比，将這段4K視訊放大500%後檢視噪點情況。可以看到使用AV1編碼遠處房屋的像素過度更平滑，幾乎沒有很明顯的顆粒感，進而使場景看起來更幹淨。

當然AV1也不是沒有遺憾，就是目前很多點傳播放器還不支援AV1解碼，泛用性沒有那麼高，但随着越來越多的産品支援AV1編碼，相信流通起來還是很快的。

8 溫度及功耗測試

功耗測試中，我們選擇FurMark軟體進行拷機測試，并采用GPU-Z檢測溫度，功耗僅計算顯示卡自身。

可以看到影馳GeForce RTX 4080 16GB 星曜 OC這張顯示卡在45分鐘左右的拷機中，峰值溫度一直在61℃左右，熱點溫度也僅有70℃左右，溫度控制的非常好。

另外新版本的GPUZ還新增了對16pin電源接口的監控功能，讓使用者可以通過傳感器擷取功率輸入資訊，進而及時發現一些異常情況。

遊戲	1080p	1440p	4K
Control	212 W	288 W	297 W
Cyberpunk 2077	224 W	275 W	287 W
Forza Horizon 5	172 W	197 W	238 W
Guardians of the Galaxy	177 W	233 W	266 W
Metro Exodus	205 W	262 W	295 W

值得一提的是，本次我們在拷機測試中最大闆載功耗為320W左右，TDP達到了99%。但在實際遊戲測試中，大部分3A遊戲能夠在260W左右，一些非常耗費性能的3A遊戲才能夠到達290-300W左右，遠低于額定功耗。

是以在實際的使用過程中，由于不同遊戲負載不同，GPU的實際功耗是動态變化的，類似于FPS随時間的變化，RTX 40系列很難觸及功耗牆。

是以從這一點來看，上一代遊戲旗艦RTX 3080 Ti整卡功耗為350W，而在RTX 4080中，即便是耗費性能最高的《Control 》，也未達到300W。并且RTX 4080的綜合性能提升44%左右，是一款能耗比非常出色的次世代顯示卡。

9 千重鏡面光影美學

在RTX 40系顯示卡中，影馳的星曜系列在設計理念上沿襲了RTX 30系的水晶切割、純白、透明等關鍵詞，但細節方面的進步更加明顯。透明外殼整體的貼合度更高，并大量減少了切割面的數量，轉而集中在風扇周圍，水晶質感更強。

作為目前為數不多，以純白配色為主題的顯示卡，星曜系列也深知玩家的訴求：純白勝雪；光影美學，對于想要打造純白整機的使用者是非常不錯的選擇。

性能方面，影馳GeForce RTX 4080 16GB 星曜 OC相比較上一代遊戲旗艦RTX 3080 Ti的理論性能，綜合提升約為45%，相應的對比RTX 3080提升約為56%左右。

目前這張RTX 4080在4K分辨率下，3A大作基本都可以達到百幀，是以顯示器是目前更換顯示卡的主要瓶頸，因為相信在此之前即便擁有4K顯示器的使用者，大部分也是60Hz。但如果你擁有一張RTX 4080，仍然使用60Hz的顯示器，會浪費掉大部分顯示卡性能。

10 附錄1-NVIDIA Ada Lovelace架構解析

Shader Execution Reordering （SER）着色器執行重排序

SER主要的作用是提升着色器性能，它可以将效率低下的工作負載，動态重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。

簡單地說，GPU在執行類似工作的時候效率最高。但随着光追效果越來越強大，每個場景可能有數百萬條光線照射在不同材質上，而我們知道不同材質的反射率，以及反射效果也是不同的。是以這樣就為着色器建立了大量的、發散的，效率低下的工作負載。

SER則可以将這些雜亂的指令重新分門别類，動态重組為更高效的工作負載。根據NVIDIA的說法，SER可将着色器性能最多提升2倍，并将遊戲幀率最高提升25%。

舉個簡單的例子，當光線第一次從發射端到碰撞端是非常有規律的射線，而碰撞到物體後的二次光追，則會出現大量發散的、無規律的反射，這對于光追負載是非常高的。而從圖中便能看到，SER可以将這些指令進行二次排序，以發揮出着色器的最大性能。

不過好在這麼實用的功能并不是RTX 40系的專利，它是一個易于內建的SDK，目前需要遊戲開發商內建在遊戲中。另外由于它是一個通用的邏輯，後續也有可能直接內建在Windows的API中，這樣遊戲開發者就無需特意引用，直接調用系統API即可。

可以說SER對于手持RTX 20系及以上（能夠開啟光線追蹤）的N卡使用者來說，是極大地福音。畢竟免費提升的光追性能，誰不喜歡呢。

第三代 RT Cores

RT Core的作用在于更快的光線追蹤計算能力，如果說在RTX 30系顯示卡中，想要暢享4K高幀率遊戲有點吃力，那麼RTX 40系顯示卡中，将顯得輕而易舉。

在GeForce RTX 4090這張顯示卡上，達到了191 RT-TFLOPs的處理能力，而RTX 30系顯示卡最快處理能力為78 RT-TFLOPs，足足為2.4倍。并且根據NVIDIA的官方說法，第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這隻能說明，這張4090并非Ada Lovelace架構的最終形态。

Opacity Micro-Map Engines

在第三代RT Cores中引入了兩個重要的硬體單元，首先是Opacity Micro-Map Engines，可以了解為微映射透明度引擎，它主要的作用是優化光線追蹤渲染，可大幅減輕着色器的工作負擔。

比如樹葉之類的複雜物體，不同的光線都會影響它的表現狀态，以及樹葉之間的光線反彈，是以對于光線追蹤的計算量是巨大的。

不過Opacity Micro-Map Engines可以将光線追蹤特性烘焙到不透明蒙版中，是以那些不規則形狀和半透明的對象，也就能夠更快更精準的渲染出來，進而極大減輕着色器的工作負擔。

Displaced Micro-Mesh Engines（DMM）

Displaced Micro-Mesh Engines可了解為微網格置換引擎，它建構光線追蹤的BVH（Bounding volume hierarchy）的速度提高了10倍！所使用的的顯存減少了20倍！

DMM由第三代RT core本地處理，與前幾代相比，它隻使用基本三角形渲染複雜幾何圖形，極大減少了存儲和處理需求。

具體的工作原理從圖中一目了然，新的DMM可以将面數非常多的複雜圖形做簡化，創造出簡單的模型，但整體的光線追蹤效果不變。

通過一些模型資料我們可以具體看到，新的DMM将模型簡化了多少。原本1100萬三角面的模型，經過簡化後，隻有15萬左右的微網格，BVH的建構速度提升了8.5倍，小了6.5倍。

而這還不是最誇張的，越複雜的模型往往優化的效果越好，在官方展示的這幾組對比示例中，最快可提升大于15倍的速度，容量簡化20倍的模型。

第四代 Tensor Cores

除了光追單元的更新外，第四代張量核心的更新更加恐怖。它采用了新的FP8張量引擎，在GeForce RTX 4090這張顯示卡上，吞吐量達到了1.32 Tensor petaFLOPs，提高了5倍。

注意這裡的機關——petaFLOPs。以往的TFLOPs為萬億次浮點運算，而petaFLOPs則為千萬億次浮點運算。

DLSS 3

本次推出的DLSS 3也是RTX 40系一大賣點，從DLSS 2.3直接邁入了DLSS 3版本，也能看出此次的更新之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。

全新的DLSS 3在原有的DLSS超分辨率的基礎上，添加了光學多幀生成技術，以生成全新的幀，而不像原來隻能生成像素。

DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術，能夠重建八分之七的像素，極大提高性能。

在GPU受限的遊戲中，比如2K分辨率及以上的更高分辨率，DLSS 2能夠将幀率提高2倍，DLSS 3則能夠提升4倍。

本次DLSS 3跨越了一個大版本，從想法和原理上也再度更新，完全“猜想”1幀的技術，我們解釋起來簡單，但實施起來需要大量的推理與演算，以及絕對超前的想法。

不過“憑空”生成的1幀，在延遲上絕對要比DLSS 2高。是以此次完整的DLSS 3中，捆綁了NVIDIA Reflex，可以有效幫助減小延遲。

這也不負NVIDIA給它起了個“神經網絡渲染新時代”的名号。縱觀目前市面上的XeSS、FSR技術，DLSS絕對稱得上“巨人的肩膀”。當然，連年的創新，苦的是手持上一代顯示卡的玩家，想體驗DLSS 3的幀生成，目前唯一的辦法就是購入一張RTX 40系顯示卡。

New Optical Flow Accelerator

New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的，這也是為何DLSS 3中的幀生成為RTX 40系顯示卡獨享。

光流加速器在原本DLSS 2的基礎上，還可以計算兩個連續幀内的光流場，能夠捕捉遊戲畫面從第1幀到第2幀的方向和速度，從中捕捉粒子、反射和光照等像素資訊。并分别計算運動矢量和光流來獲得精準的陰影重建效果。

以《賽博朋克2077》為例，在第一幀，光流加速器會捕捉到每一個像素中的粒子、反射和光照等資訊。并在第二幀中查找比對的像素區域，計算幀之間的內插補點。

如果說原來DLSS 2能夠“猜”出一張圖剩下的像素，那麼DLSS 3除了這些，還能夠“猜”出下一幀的畫面。

另外由于DLSS 3的幀生成是在GPU中處理和運作的，是以即使遇到CPU瓶頸的遊戲，AI同樣能夠提升幀率。這也是為什麼在此次釋出會中說到，DLSS 3能夠突破CPU的限制來提升幀數。

雙AV1編碼器

本次更新的第八代NVENC編碼器可以說是直播、視訊、後期工作者的極大福音。它首次加入了對AV1編碼的支援，最顯而易見的效果就是直播。

相比傳統的H.264編碼，AV1編碼的效率平均提升了40%，在同碼率下AV1編碼的畫質将更好。目前大部分直播的分辨率和清晰度，均受限于平台規定的最大比特率。以Twitch限制的8Mbps為例，可以看到在同等帶寬下，同為2K 60幀的畫面，采用AV1編碼的清晰度明顯比H.264更高。

說起直播，OBS相信大家都不陌生，在10月份即将釋出的更新檔中，OBS就加入了對NVENC的AV1編碼支援

當然，直播隻是我們更容易見到的AV1優勢，在視訊工作的所有環節，AV1編碼都可以帶來極大提升。

是以，如圖所見。NVIDIA已經為廣大使用者鋪好了一條完整的生态鍊，從編碼API、軟體、平台到播放器，将全面支援AV1編碼。

另外再說一下NVIDIA一直強調的雙AV1編碼。顧名思義，即部分顯示卡内搭載了兩個編碼器，它所帶來的效果也是顯而易見的。

首先，根據官方宣傳的，在4K H.265的導出速度上，RTX 4090是RTX 3090 Ti的2.2倍；在8K H.265的導出速度上更是達到了2.5倍。這部分的提升，大家常用的剪映同樣适用，感興趣的使用者不妨親自體驗一下。

除了導出速度，8K 60幀的視訊錄制在以前簡直難以想象，而雙編碼器的好處就是可以将圖像一分為二，兩個編碼器分别處理7680×2160的圖像資訊，最後拼合完整。

關于編碼部分，可能大部分使用者的感受不深，但當有一天，你想錄屏的時候，卻發現顯示卡不支援，才會發覺它的重要性……

随着圖像逐漸進入到超清時代，硬體編碼和渲染幾乎已經成為不可或缺的幫手。雖然論品質，硬體編碼仍不及CPU軟編，但軟編做到了極限畫質，也要承受時間的無窮長。甚至在一張8K渲染圖中，兩種編碼方式的時間差距就已經達到了幾個小時，遑論一段10秒的CG動畫。在不斷進步的硬體編碼中，品質和時間也在不斷地被挑戰和重新整理。

11 附錄2-Ada Lovelace是誰？

Ada Lovelace（1815-1852）是英國數學家、計算機程式創始人，建立了循環和子程式概念，被稱為世界上第一位程式員。

Ada從小對數學有極高天賦，其父稱她為“平行四邊形公主”，後來的合作夥伴Charles Babbage稱她為“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師，婚後的她對數學熱情不減。

1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄，寫了很多注記，其中給出了用計算機進行Bernoulli數求解的詳細說明。由此，Ada被廣泛認為是世界上第一個程式員。

而以她名字命名的語言——ada語言，已經成為了美國軍方開發戰鬥機等尖端武器的語言。

從幾行簡短的生平簡介中，不難看出Ada的生命雖然隻經曆了短暫的37個春秋，但卻足以被後人銘記。

這也是為什麼此次NVIDIA RTX 40的先行宣傳中，用到了“以未來敬傳奇”的slogan。

(8078273)

影馳RTX 4080 16GB 星曜OC評測 千重鏡面光影美學

影馳RTX 4080 16GB 星曜OC評測千重鏡面光影美學