NeRF最新綜述！超全！

來源：3D視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

标題：Neural Radiance Field-based Visual Rendering: A Comprehensive Review

作者：Mingyuan Yao, Yukang Huo, Yang Ran, Qingbin Tian, Ruifeng Wang, Haihua Wang

機構：中國農業大學

原文連結：https://arxiv.org/abs/2404.00714

近年來，神經輻射場（NeRF）在計算機視覺和圖形領域取得了顯著進展，為解決包括3D場景了解、新視角合成、人體重建、機器人學等關鍵任務提供了強大的技術支援，學術界對這一研究成果的關注日益增長。作為一種革命性的神經隐式場表示，NeRF在學術界引發了持續的研究熱潮。是以，本綜述的目的是對過去兩年内有關NeRF的研究文獻進行深入分析，為初涉研究者提供全面的學術視角。本文首先詳細闡述了NeRF的核心架構，然後讨論了各種改進NeRF的政策，并在不同的應用場景中對NeRF進行了案例研究，展示了其在不同領域的實際效用。在資料集和評估名額方面，本文詳細介紹了NeRF模型訓練所需的關鍵資源。最後，本文對NeRF未來發展趨勢和潛在挑戰進行了展望性讨論，旨在為該領域的研究人員提供研究啟示，并促進相關技術的進一步發展。

随着NeRF的出現，基于NeRF和其他神經體積表示的神經體積表示已成為一種令人信服的技術，用于學習如何從圖像中表示3D場景，以從未觀察到的視點渲染逼真的場景圖像，并且相關文章呈指數增長。

NeRF現在廣泛應用于新視角合成，三維重建，神經渲染，深度估計，姿态估計等場景。考慮到基于NERF方法的快速進展，跟蹤新的研究發展變得越來越具有挑戰性。是以，對該研究領域最新進展進行全面審查至關重要，這将對該領域的研究人員産生積極影響。

本文詳細介紹了NERF的最新進展。主要貢獻如下：

（1）首先對現有的與NeRF相關的文獻進行了全面回顧，其中包括對早期工作的總結以及對最近研究趨勢的分析。

（2）對最初的NeRF模型的各個元素進行了較長的描述，包括其網絡結構，損失函數和渲染方法。

（3）詳細收集和分析了多個資料集，總結了目前常用的NeRF評估名額。

（4）對NeRF的變體進行了分類，并詳細介紹了它們在提高渲染品質，加速計算以及在室内，室外，人體，互動場景等方面的應用中的創新。還比較了不同模型在速度，準确性和其他關鍵性能名額（如渲染品質，記憶體使用和泛化能力）方面的表現。

（5）确定了目前研究中的主要障礙，如對計算資源的需求，模型的可擴充性以及處理複雜場景的能力。進一步探讨了這些挑戰的可能解決方案，并提出了未來研究的潛在方向。

（6）總結了NeRF的主要貢獻和影響，以及對該領域未來發展的展望。

A. 合成資料集

NeRF合成資料集（Blender資料集）：在最初的NeRF論文中提出，該資料集由使用Blender軟體精心制作的複雜3D場景組成，包括各種物品，如椅子、鼓、植物等。此外，還提供了分辨率高達800x800像素的高分辨率圖像，并為每個場景配備了适當的圖像集合，用于訓練、驗證和測試。此外，該資料集還包括深度和法線圖，以及全面的相機變換資料，為訓練NeRF模型提供了重要的幾何和照明細節。

本地光場融合（LLFF）資料集：這是用于創新視圖合成研究的工具，合并了人工和實際圖像，旨在促進虛拟探索中複雜場景的描繪。該資料集包括使用SUNCG和UnrealCV建立的人工圖像，以及從便攜式手機拍攝的24張真實場景照片。LLFF資料集非常适合廣泛的新視圖合成活動，并且非常适合深度學習模型的訓練和評估，特别是在管理在現實場景中合成新視圖方面。此外，LLFF還提供了一種有效的視圖合成算法，通過将多平面圖像（MPI）場景描繪與本地光場合并，進而擴充了傳統的光場采樣理論。

Mip-NeRF合成360°資料集（NeRF-360-V2資料集）：該資料集是從Mip-NeRF擴充的合成資料集，旨在解決具有無限可能性的場景中的3D重建挑戰。該資料集通過使用非線性場景參數化、實時精餾和創新的取向失真正則化技術來解決無限場景的困難。Mip-NeRF 360具有建立逼真人工視角和複雜深度圖的能力，适用于非常複雜、無限真實生活場景。在資料集中，有9個場景，均勻分布在室内和室外環境之間，每個場景都具有一個複雜的主要對象或空間，以及一個複雜的背景。

NVS-RGBD資料集：包括由消費級深度傳感器記錄的真實世界場景的粗略深度圖。該資料集的目标是建立一個新的NeRF評估标準，以評估使用有限視圖集建立新視角的有效性。NVS-RGBD資料集包括8個場景，從Azure Kinect、ZED 2和iPhone 13 Pro等消費級傳感器收集了粗略深度圖。這些深度圖中的僞影可能與傳感器噪聲中的僞影不同。

DONeRF資料集：該資料集涵蓋了各種三維場景，包括推土機、林地、教育空間、聖米格爾、亭子和美發店等。一系列開發者使用Blender建立了這些情景，為研究神經輻射場和資源提供了實用基礎，特别是對于即時渲染和互動使用。

B. 實際資料集

坦克與寺廟資料集：該資料集包括從實驗室外部收集的标準序列，提供室内和室外環境的高清視訊素材。視訊序列有助于建立利用視訊輸入來提高重建準确性的創新管道。工業雷射掃描器用于收集資料集的真實資料，涵蓋了室内和室外環境的場景。此外，該資料集提供了訓練和測試資料集，将測試資料分為中級和進階類别，以适應不同複雜度的重建活動。

DTU資料集：該資料集采用了多視圖立體格式，與其前身相比，場景增加了十倍，多樣性顯著提高。更準确地說，它包括80個場景，具有廣泛的多樣性。每個場景由49或64個準确的相機放置和結構化光線參考掃描組成，生成1200×1600像素的RGB圖像。

Euroc資料集：該資料集涵蓋室内和室外資料，包括各種傳感器資訊，如相機和IMU讀數。該資料集在各種研究領域廣泛應用，包括機器人視覺、确定錄影機角度、校準錄影機以及位置和導航。該方法的主要特點是能夠以高精度提供傳感器資料和真實室内環境，通過灰階圖像和緊密內建的IMU測量來評估我們方法的重建和定位精度。

Replica資料集：該資料集代表了Facebook建立的室内場景的優質3D重建。該收藏包括18個精細逼真的室内設定，每個都經過精心制作和描繪，以保持視覺真實感。每個資料集場景都包含了一個緊湊的三維網格、詳細的高動态範圍（HDR）紋理、玻璃和鏡面表面的資料，以及語義分類和執行個體分割。

BlendedMVS資料集：這個龐大的資料集專為多視圖立體比對（MVS）網絡定制，提供大量的訓練執行個體，以便于基于學習MVS的算法。BlendedMVS收藏包含超過17,000張詳細的圖像，涵蓋了城市區域、結構、雕塑和微型物品等各種景觀。這個資料集的廣泛性和多樣性使其成為MVS研究的重要資産。

亞馬遜伯克利物體資料集（ABO資料集）：該資料集是一個廣泛的3D對象了解收藏，旨在連接配接現實和虛拟3D領域。資料集包括大約147,702個産品清單，每個産品與目錄中的398,212個不同圖像相關聯，每個産品具有多達18個獨特的中繼資料特征，包括類别、顔色、材料、重量和大小等。ABO資料集包括8,222個物品的360度圖像和7,953個産品的藝術家制作的3D網格表示。該資料集非常适合3D重建、材料估計和跨領域的多視圖對象檢索，因為這些3D模型具有複雜的幾何設計并且根據實體屬性包含材料。

3D中的常見對象資料集（CO3Dv2資料集）：該資料集包括150萬個多視圖圖像幀，跨越50個MS-COCO類别，提供豐富的圖像資源、精确的相機位置和3D點雲注釋。CO3Dv2的廣泛性和多樣性使其非常适合評估創新的視圖合成和3D重建技術，推動3D計算機視覺研究的進步。

3D-FRONT資料集：這是由阿裡巴巴淘寶技術部、西蒙弗雷澤大學和中國科學院計算技術研究所共同建立的一個大型人工室内場景資料集。該資料集提供了精心設計的房間設計以及大量樣式相容且品質高的3D模型。3D-FRONT設施擁有18,797個房間，每個房間都配備了獨特的3D元素，以及7,302件具有優質紋理的家具。資料集的特點涵蓋了從布局語義到每個對象的複雜紋理的廣泛範圍，旨在輔助諸如3D場景了解、SLAM以及3D場景的重建和分割等領域的研究。此外，資料集還包括Trescope，一種簡化的渲染工具，用于促進2D圖像及其注釋的基本渲染。

SceneNet RGB-D資料集：該資料集是一個包含500萬個合成室内場景的真實圖像的集合，具有相應的地面實況資料。資料集中的場景是随機生成的，包含255個不同的類别，通常被重新組合成13個類别，類似于NYUv2資料集。這些合成場景提供了豐富的視角和照明變化，使資料集非常适合室内場景了解任務，如語義分割、執行個體分割、目标檢測以及光流、深度估計、相機姿态估計和3D重建等幾何計算機視覺任務。

C. 人臉資料集

CelebV-HQ資料集：一個廣泛、優質且多樣的視訊集合，精心标記了面部特征，包含35,666個剪輯，分辨率最低為512x512，涵蓋15,653個不同的身份。每個視訊剪輯都手動标記了83種不同的面部特征，包括外觀、動作和情感，可用于面部識别、表情研究和視訊了解等研究領域。

CelebAMask-HQ資料集：所述資料集是一個廣泛的高清面部圖像集合，包括30,000張從CelebA資料集中選擇的圖像。每張圖檔配有一個512*512像素的分割掩碼。研究人員通過手動标記這些掩碼，擷取了詳細的面部區域資料，包括皮膚、眼睛、鼻子、嘴巴等19種面部特征。

VoxCeleb資料集：這個資料集是牛津大學的研究人員開發的一個大規模說話者識别資料集。它包含大約100,000個來自YouTube視訊的1,251個名人的語音剪輯。VoxCeleb資料集旨在支援說話者識别和驗證的研究，提供了一個真實、多樣化和大規模的資料資源。資料集中的語音剪輯涵蓋不同年齡、性别、口音和職業，以及各種不同的錄制環境和背景噪音。VoxCeleb分為兩個子集：VoxCeleb1和VoxCeleb2。資料集的音頻采樣率為16kHz，16bit，單聲道，PCM-WAV格式。

在野外标記的面孔（LFW）資料集：所述資料集是公開可通路的，并在面部識别研究中廣泛使用。它由馬薩諸塞大學阿默斯特分校的計算機視覺實驗室編制，收集了來自網際網路的13000多張人臉圖像。這些圖像涵蓋了1,680個不同的個體，每個人至少有兩張圖像。LFW資料集的目的是提高在自然條件下的人臉識别的準确性，是以它包含了在各種不同環境中拍攝的人臉圖像，如不同的光照、表情、姿勢和遮擋情況。

MPIIGaze資料集：該資料集由15名使用者在幾個月的日常筆記本電腦使用中收集，包含213,659張全臉圖像及其對應的真實凝視位置。經驗豐富的采樣技術確定了凝視和頭部位置的一緻性，以及眼睛外觀和照明的真實變化。為了便于跨資料集評估，手動注釋了37,667張圖像的眼角、嘴角和瞳孔中心。該資料集以其個人外觀、環境和攝影裝置的多樣性以及資料收集的延長期而脫穎而出，為研究凝視估計技術的廣泛适用性提供了重要資産。

GazeCapture資料集：該資料集是一個大型的用于眼動技術的資料集，包含了來自1450多名志願者的約250萬幀圖像。通過移動裝置收集，該資料集旨在幫助眼動研究，并訓練相關的卷積神經網絡（CNN），如iTracker。GazeCapture資料集的特點包括可伸縮性、可信度和可變性，確定了資料的多樣性和品質。

Flickr-Faces-HQ（FFHQ）資料集：這個面部圖像集合品質上乘，包括70,000張PNG格式的圖像，每個圖像的分辨率為1024*1024。FFHQ涵蓋了各種年齡組、種族和文化遺産，以及各種配飾，如眼鏡、太陽鏡、帽子等，提供了廣泛的多樣性。

D. 人類資料集

Thuman資料集：該資料集代表了一個廣泛的公共收集，用于3D人體重建，包含約7,000個資料點。每個資料項包括一個帶材料的表面網格模型、RGBD圖像和相應的SMPL模型。包含各種姿勢和服裝的人體模型，使用DoubleFusion技術捕獲和重建。資料集的釋出為3D人體模組化、虛拟現實、增強現實等領域的研究提供了寶貴資源。

HuMMan資料集：HuMMan資料集是一個大規模的多模态4D人體資料集，包含1,000個人類主體、400,000個序列和6000萬幀資料。該資料集的特點包括多模态資料和注釋（如彩色圖像、點雲、關鍵點、SMPL參數和紋理網格模型）、一個包括流行移動裝置的傳感器套件，以及一個旨在覆寫基本運動的傳感器套件。500個動作集合，支援各種任務，如動作識别、姿勢估計、參數化人體修複和紋理網格重建。HuMMan資料集旨在支援多樣化的感覺和模組化研究，包括挑戰，如細粒度動作識别、動态人體網格序列重建、基于點雲的參數化人體估計和跨裝置領域差距。

H36M資料集：Human3.6M資料集是一個廣泛使用的3D人體姿勢估計研究資料集。該資料集包括大約360萬張圖像，顯示了11位藝術家（6男5女）在7種不同情境中參與15項标準活動，如行走、進食和交談等。同時，資料是使用4台高分辨率錄影機和快速動作捕捉系統錄制的，提供了關于3D關節位置和角度的準确資訊。每個演員的BMI範圍從17到29，確定了體型的多樣性。

Multi-Garment資料集：用于重建3D服裝的資料集包括356張圖像，每張圖像顯示了不同體型、姿勢和服裝風格的個體。源自真實掃描，它提供了基于真實服裝的2078個重模組化型，涵蓋10個類别和563個服裝執行個體。資料集中的每件服裝都有豐富的注釋，包括3D特征線（如領口、袖口輪廓、下擺等）、3D身體姿勢和相應的多視角真實圖像。

MARS資料集：該資料集是一個綜合的基于視訊的人員重新識别（ReID）編譯，包含1,261個獨特的行人，由近乎同時運作的六台錄影機捕獲，每個行人至少由兩台錄影機捕獲。MARS資料集的特點包括步行姿勢、服裝顔色和光照的變化，以及不太理想的圖像清晰度，使其識别更具挑戰性。此外，資料集包含3248個幹擾者，以模拟現實場景的複雜性。

E. 其他資料集

InterHand2.6M資料集：該資料集是一個大規模的手勢識别資料集，包含由21個不同的人在受控環境中捕獲的超過260萬個手勢執行個體。資料集提供了21種手勢類别的注釋，包括常見手勢，如拳頭、手掌展開、豎起大拇指等。每個手勢都有多種變化，如不同的手勢姿勢、背景和光照條件。InterHand2.6M資料集旨在支援手勢識别算法的開發和評估，特别是在複雜場景和多樣化手勢表達方面。

TartanAir資料集：這個資料集由卡内基梅隆大學開發，旨在挑戰和推動視覺SLAM技術的極限。該資料集在高度真實的模拟環境中生成，包含多樣化的光照、天氣條件和移動物體，以模拟真實世界的複雜性。TartanAir提供了豐富的多模态傳感器資料，包括RGB立體圖像、深度圖像、分割标簽、光流和相機姿态資訊。這些資料幫助研究人員開發和測試SLAM算法，特别是在處理具有挑戰性的場景時。

SUN3D資料集：該資料集包含廣泛的RGB-D視訊，顯示了各種場所和結構的場景。資料集包括415個序列，跨254個不同的位置和41個獨特的結構記錄，每個幀詳細說明了場景中物體的語義劃分和相機的位置。

自 NeRF 技術問世以來，它已經推動了計算機視覺、虛拟現實（VR）、增強現實（AR）等各個領域的技術進步。此外，NeRF 在機器人技術、城市規劃、自動駕駛導航等領域展示了顯著的潛力和應用價值。

神經輻射場作為一種新興的三維場景表示方法，在計算機視覺和圖形領域引起了廣泛關注。然而，盡管其在渲染品質和細節方面取得了顯著成就，但NeRF仍然面臨一系列指向未來方向的挑戰。

A. 關于計算效率的讨論

随着深度學習方法的發展，預計未來的研究将集中于提高NeRF和類似技術的計算效率。這樣的研究可以探索創新的采樣方法，增強網絡配置，整合現有的幾何了解，并建立更高效的渲染算法。未來，提高計算效率的追求将集中于提高渲染速度和減少NeRF資源使用量。

研究人員可能會探索改進的采樣和內建技術，以減少每個圖像渲染的計算需求。例如，NerfAcc整合了各種采樣技術，使用統一的透射率估計器，實作更快的采樣速度和更低的渲染品質。相反，預計進一步的研究将集中于改進網絡配置，如MIMO-NeRF[98]，通過應用多輸入多輸出(MIMO)、多層感覺器(MLPs)，旨在減少渲染過程中MLP操作的頻率，進而提高整體渲染速度。此外，整合深度學習的最新發展，包括Transformer架構和無監督學習方法，可能為NeRF的效率提升鋪平道路。

B. 關于較少視圖渲染的讨論

目前，結合較少視圖和單視圖的領域正在迅速擴充，成為計算機視覺和圖形研究的焦點。諸如NeRF之類的方法的出現使科學家能夠從一組受限制的觀點建立出優秀的3D圖像。即使NeRF具有令人印象深刻的多視圖合成能力，由于訓練資料不足，其效力仍受到限制，可能導緻過拟合和幾何重建錯誤。

當資料缺乏時，當代研究正在探索各種正則化技術來提高合成品質。例如，通過實施幾何先驗(GeoNeRF)、使用生成對抗網絡(GAN) (PixelNeRF)或增強渲染方法(ViP-NeRF)等研究，改進模型的泛化能力。盡管這些方法在減少訓練時間和提高渲染品質方面取得了進展，但它們仍然面臨着稀疏視圖、管理遮擋和恢複幾何細節等障礙。随後的研究可能集中于建立更有效的訓練方法，增強網絡結構以捕獲更好的場景細節，并研究無監督和自監督學習技術，以減少對大量标記資料的依賴。此外，将實體模拟與場景了解相結合的混合方法可能會在領域中引入新的進展，增強諸如虛拟現實、增強現實和自動駕駛車輛等領域。

C. 關于渲染品質的讨論

關于渲染品質，當代研究集中于兩個主要類别，即高分辨率渲染和模型的泛化潛力。在通過模型優化建立高分辨率、高品質圖像(例如超過4K的圖像)時，處理大量資料和計算任務并保持複雜細節仍然是一個重要障礙。UHDNeRF和RefSR-NeRF改進其網絡結構以提高模型的檢測精度。然而，UHDNeRF通過合并顯式和隐式場景描述來提高模型的渲染，進而提高了4K UHD分辨率的細節效率，而RefSR-NeRF通過将高分辨率參考圖像合并到超分辨率視圖的建立中來放大NeRF的高頻細節。就其泛化能力而言，NeRF在處理不熟悉的場景和資料方面的熟練程度受到限制，需要通過改進的網絡設計和訓練方法來加以增強。NeRFSR通過過采樣和聯合優化技術增強了模型對新視圖的效率，而NeRF通過将可适應的神經輻射場結合到動态場景中增強了模型的泛化能力。

D. 關于成像障礙的讨論

關于成像障礙的增強，研究人員的主要關注點是解決具有反射和透明特性的對象處理的挑戰。鑒于NeRF在與具有反射或透明特性的物體互動時經常導緻模糊或扭曲的圖像。作為對這一挑戰的回應，MS-NeRF和Ref-NeRF通過解決多視圖一緻性問題來解決這一問題。MS-NeRF通過将場景描述為具有多個平行區域的特征場來處理反射和透明元素，而Ref-NeRF通過将NeRF處理反射表面的能力結合到基于視圖的結構化和參數化反射表示中，進而産生更準确的渲染結果。為了解決複雜照明場景中更廣泛的渲染問題，包括動态範圍照明、陰影和整體照明影響，可能需要進一步的研究和方法來提高NeRF的效率。随後的研究應探讨将精确的實體照明模型與NeRF相結合的技術，并建立新的資料集和評估标準，以評估和确認這些方法在複雜照明場景中的有效性。

E. 關于應用場景的讨論

關于實際應用，最近的研究主要集中在互動式渲染、制作肖像和面孔以及場景的真實重建，如下所述：

1）互動式渲染技術：目前的互動式渲染方法研究集中于提高渲染效率、豐富使用者編輯過程，并拓展多模态互動特性的範圍。然而，在這些領域仍然存在一些障礙和限制。仍然需要提高使用者編輯界面的直覺性和适應性，以使普通使用者能夠在沒有複雜教育訓練的情況下執行熟練的編輯任務。在多模态互動方面，提高對文本、圖像和音頻等各種輸入的內建是至關重要的，以實作更直覺、更自然的編輯過程。此外，目前的方法在廣泛适用性方面仍然存在困難，可能會降低模型的靈活性和對不熟悉場景和對象編輯的品質。未來的研究可以探索這些途徑來解決這些問題。最初，通過像NerfAcc這樣的優化算法和采用更有效的硬體加速方法，包括GPU和TPU，可以實作渲染的實時性和效率的提高。此外，改進使用者界面設計以提高直覺性和易用性，可以減輕使用者編輯的難度，進而提高編輯的精度和滿意度，就像ICE-NeRF和NaviNeRF所實作的那樣。增強模型的多模态融合特性是可行的，使其能夠更有效地了解和響應各種輸入。最終，為了增強模型的泛化能力，并在各種應用中保持出色的渲染和編輯，可能需要在不同領域建立資料集、實施元學習方法，并創新模型的正則化技術。通過這些努力，未來的互動式渲染技術将能夠更好地滿足使用者需求，并為各種應用領域提供更強大、更靈活的工具。

2）肖像重建：面部合成技術在未來具有巨大潛力，特别是為了提高現實感和使用者互動體驗。諸如FaceCLIPNeRF之類的技術的出現突顯了基于文本描述準确處理3D面部表情和特征的能力。這種方法不僅從靜止圖檔中檢索資料，而且還保留了來自不同角度的一緻性，為制作定制的媒體内容鋪平了道路。相反，NeRFInvertor方法展示了從單一圖像建立真實身份的進階動畫，為遊戲、電影和虛拟現實的使用提供了巨大潛力。此外，GazeNeRF的建立展示了利用3D感覺方法改變面部屬性，如眼睛位置，以提高虛拟角色的互動性和真實性的能力。最後，RODIN架構通過3D擴散網絡提出了生成和修改數字化頭像的創新機會，增強了定制和高精度3D角色的制作效率。這些技術的進步預示着面部合成技術的未來發展，重點是實時處理、多樣性和為使用者定制，但同時也引入了關于隐私保護和道德考慮的新挑戰。

3）人體渲染：目前，人體渲染領域正在經曆雙重增長，涵蓋了技術進步和應用範圍的擴充。從技術角度來看，新的研究發現，如TransHuman和GM-NeRF展示了在有限資料的情況下，通過使用多視角視訊教育有條件的NeRF來展示優越的新視圖合成架構。這些方法不僅提高了渲染的即時性和廣泛适用性，而且還為虛拟現實(VR)和增強現實(AR)等應用提供了強大的技術支援。此外，像PersonNeRF這樣的方法允許通過使用一組個人照片建立個性化的3D模型，進而從不同的角度、姿勢和外觀定制可視化效果，為社交媒體、數字娛樂和電子商務提供了一種新穎的個性化方法。

其次，關于應用範圍的擴充，人體渲染技術的進步正在引發各個領域的變革。例如，SAILOR架構不僅提供了優越的渲染效果，還賦予使用者編輯和創作自由，為内容創作者提供了更大的創作空間和制作更多樣化和詳細的視覺内容的能力。此外，随着資料壓縮和傳輸技術的進步，預計未來的人體渲染将在網絡帶寬有限的環境中促進有效的資料傳輸，進而確定在移動裝置上流暢運作更進階的VR和AR體驗。這一進展表明了人體渲染技術在提供引人入勝的體驗和定制内容方面的日益重要，引入了新的應用領域，如娛樂、教育和醫療保健。

盡管NeRF領域面臨着諸多障礙，但它具有巨大的增長前景。随着技術的不斷進步，NeRF在塑造3D場景模組化和渲染未來方面的重要性将不斷增強。

在Mildenhall等人提出NeRF架構之後。這種模型在其開創性研究中顯著提高了處理速度、輸出完整性和訓練資料需求等各個方面，進而超越了其原始形式的許多限制。NeRF方法的成功歸因于其從有限的視角重建連續的3D景觀并從不同的視角産生優質圖像的能力。這項技術的出現為計算機視覺領域帶來了新的方面。這一創新為觀點合成、3D重建和計算機視覺中的神經渲染方面的創新方法鋪平了道路，NeRF技術在風格遷移、圖像編輯、頭像開發和3D城市環境模組化等各個領域展示了巨大的潛力。随着NeRF模組化在學術界和工業界的關注度不斷增加，大量的研究人員投入了大量的研究資源，促成了各種預印本和學術作品的釋出。本文系統地審視了NeRF技術在技術和實際應用中的最新進展，提供了對其未來路徑和挑戰的全面審視和觀點。本文的重點是激勵該領域的學者，旨在促進NeRF相關技術的持續進步和創新。

對更多實驗結果和文章細節感興趣的讀者，可以閱讀一下論文原文

本文僅做學術分享，如有侵權，請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。