天天看點

開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

論文題目:GSNeRF: Generalizable Semantic Neural Radiance F

作者:Zi-Ting Chou,Sheng-Yu Huang等

作者機構:Graduate Institute of Communication Engineering, National Taiwan University,NVIDIA, Taiwan

論文連結:https://arxiv.org/pdf/2403.03608.pdf

介紹了一種名為GSNeRF的通用語義神經輻射場,該模型在合成過程中考慮了圖像語義,能夠為未見場景生成新視角圖像和相關的語義地圖。GSNeRF由兩個階段組成:語義地理推理和深度引導視覺渲染。前者從多視角圖像輸入中提取語義和幾何特征,後者在圖像幾何資訊的指導下執行圖像和語義渲染,性能得到改善。實驗證明了GSNeRF在新視角圖像和語義分割合成方面的優越性,并驗證了采樣政策對于視覺渲染的有效性。

讀者了解:

本文提出的GSNeRF方法在解決通用的新視角合成和語義分割問題上具有創新性和實用性。通過将視覺特征提取和深度圖預測結合起來,GSNeRF能夠在不需要重新訓練的情況下泛化到未見過的場景,這在實際應用中具有重要意義。實驗結果表明,GSNeRF在真實世界和合成資料集上取得了良好的表現,優于現有方法。這表明GSNeRF是一種有效的方法,可以應用于各種需要新視角合成和語義分割的場景。

開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?

這篇論文介紹了一種名為GSNeRF的通用語義神經輻射場,旨在同時解決通用化新視角合成和語義分割的問題。GSNeRF通過學習場景的視覺特征、深度資訊和語義資訊,能夠在未見場景上渲染新的視角圖像,并生成相應的語義分割掩碼。該方法包括兩個關鍵學習階段:語義地理推理和深度引導視覺渲染。前者用于推導場景的視覺特征和聚合源視圖的深度資訊,以估算新視圖的深度,而後者用于渲染目标視圖的RGB圖像和語義分割圖。通過在真實世界和合成資料集上進行實驗,證明了GSNeRF在新視角合成和語義分割方面優于目前通用性NeRF方法的性能。

本文貢獻:

  • 提出了GSNeRF,用于在未見場景上共同渲染新視角圖像并生成相關的語義分割掩碼。
  • 所提出的語義地理推理階段學習輸入場景的顔色、幾何和語義資訊,引入了本文文GSNeRF的泛化能力。
  • 基于推斷出的幾何資訊,引入的深度引導視覺渲染階段根據預測的目标視圖深度圖定制了兩種不同的采樣政策,以便可以同時進行圖像和語義地圖的渲染。

簡要回顧了通用性NeRF的基本原理和方法。通用性NeRF通過學習場景的視覺特征、深度資訊和語義資訊,可以在未知場景上渲染新的視角圖像,并生成相應的語義分割掩碼。該方法包括兩個關鍵學習階段:語義地理推理和深度引導視覺渲染。語義地理推理階段學習輸入場景的顔色、幾何和語義資訊,引入了GSNeRF的泛化能力。深度引導視覺渲染階段根據推斷出的幾何資訊定制兩種不同的采樣政策,以便可以同時進行圖像和語義地圖的渲染。通用性NeRF的優化目标是通過渲染損失優化模型,使渲染圖像與真實圖像之間的差異最小化。

開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?
開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?

3.1 問題闡述與模型概述

這一部分介紹了論文的方法。首先定義了問題設定和符号表示,描述了在給定場景和相機姿态的情況下,旨在實作新視角合成和語義分割的目标。提出了通用語義神經輻射場(GSNeRF)來實作這一目标,包括兩個關鍵學習階段:語義地理推理和深度引導視覺渲染。在語義地理推理階段,利用語義地理推理器從每個輸入源圖像中提取2D特征、語義特征、3D體積特征和深度預測。在深度引導視覺渲染階段,根據目标視圖的深度圖進行獨特的采樣政策,然後将采樣點和特征輸入到體積渲染器和語義渲染器,以合成目标視圖的圖像和語義分割圖。

3.2 通用語義NeRF

通用語義NeRF的兩個關鍵學習階段:語義地理推理和深度引導視覺渲染。在語義地理推理階段,通過Gθ模型從K個多視角源圖像中提取幾何線索和語義資訊,包括3D體積特征、深度圖、2D圖像特征和語義特征,并學習預測目标視圖的深度圖。在深度引導視覺渲染階段,通過修改傳統的體積渲染政策,采用深度引導采樣政策,使得采樣點集中在預測的深度值附近,進而提高采樣效率。最終,利用預測的深度圖進行體積渲染和語義渲染,分别使用體積渲染器Rθ和語義渲染器Pθ預測目标視圖的圖像和語義分割結果。整個過程使得模型能夠在訓練後直接推廣到未見過的場景,無需微調,實作了對未知場景的通用性。

3.3 訓練和推斷

在本節中,介紹了GSNeRF的訓練和推斷過程。在訓練階段,使用了多種損失函數來優化模型,包括圖像渲染損失、深度預測損失和語義分割損失。如果地面真實深度可用,使用地面真實深度來監督深度預測;如果不可用,則使用自監督深度損失來優化深度估計。在推斷階段,本文的模型能夠在未見過的場景中生成新的視圖圖像和語義分割圖,無需重新訓練。這是因為本文的模型能夠根據輸入場景的特征實時建構語義神經輻射場,進而實作對新場景的泛化推斷。

開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?

在實驗部分,作者使用了真實世界和合成資料集來評估他們提出的方法的有效性。對于真實世界資料,他們使用了ScanNet資料集,這是一個大規模的室内RGB-D視訊資料集,包含超過250萬個視圖和1513個不同場景,具有語義注釋和相機姿勢。他們在60個場景上訓練模型,并在10個新的未見過的場景上測試泛化能力。對于合成資料,他們使用了Replica資料集,這是一個基于3D重建的室内資料集,包含18個高品質的場景,具有密集的幾何、HDR紋理和語義标簽。他們在6個不同場景上的12個視訊序列上訓練模型,并在4個視訊序列上的2個新場景上進行測試。

在結果和分析部分,作者首先對比了他們的方法與幾種基線方法,包括S-Ray、MVSNeRF、GeoNeRF、GNT和NeuRay,使用PSNR、SSIM等名額進行評估。實驗結果表明,他們的方法在未見過的場景中表現良好,并且即使在沒有地面真實深度的情況下,仍然優于其他基線方法,驗證了其有效性和實用性。此外,作者進行了定性結果的比較,展示了他們的方法相對于SRay的優勢,能夠更好地捕捉幾何細節和場景的真實性。

作者還進行了消融研究,分析了設計子產品的有效性。通過在ScanNet資料集上的實驗,他們驗證了模型的各個部分對結果的貢獻,并展示了深度引導采樣政策的有效性。最後,作者讨論了他們的方法在采樣效率方面的優勢,指出深度引導采樣使得模型對于每條射線的采樣點數目變化不敏感,并且在降低采樣點數目的情況下依然能夠保持良好的視覺效果。

開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?
開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?
開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?
開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?

本文提出了一種通用的語義神經輻射場(GSNeRF)方法,用于實作通用的新視角合成和語義分割。本文的GSNeRF被訓練以提取每個源視圖的視覺特征并執行深度圖預測,以便可以估計新目标視圖的深度圖。通過觀察到這樣的目标視圖深度資訊,可以通過深度引導渲染來共同生成關聯的RGB圖像和語義分割。在作者的實驗中,作者定量和定性地證明,本文的GSNeRF在真實世界和合成資料集上的表現優于現有的通用語義感覺NeRF方法。

開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?
開源!通用!NVIDIA新作GSNERF: 如何解決未見場景的新視角生成?

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀