CVPR'24 | NeRF新突破，啟發式引導分割解決瞬态幹擾

來源：3D視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

論文題目：NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

作者：Jiahao Chen, Yipeng Qin等

作者機構：Sun Yat-sen University ,Cardiff University 等

論文連結：https://arxiv.org/pdf/2403.17537.pdf

代碼連接配接：https://cnhaox.github.io/NeRF-HuGS/

這篇論文介紹了一種名為NeRF-HuGS的新方法，旨在改進神經輻射場（NeRF）在非靜态場景中的表現。NeRF以其在新視角合成和3D場景重建方面的出色表現而聞名，但在處理移動物體或陰影等瞬态幹擾時存在問題。為了解決這一問題，研究者提出了“啟發式引導分割”（HuGS）範式，通過結合手工制作的啟發式和最先進的分割模型，顯著增強了靜态場景與瞬态幹擾物的分離能力。他們設計了精心的啟發式方法，包括基于運動結構（SfM）的啟發式和顔色殘差啟發式的融合，以适應各種紋理配置檔案。實驗證明，這種方法在減輕非靜态場景中訓練的NeRF的瞬态幹擾方面具有優越性和穩健性。

這篇論文提出了一種新穎的方法來解決在NeRF訓練中常見的瞬态幹擾問題，這對于提高NeRF模型在現實世界中的适用性和魯棒性具有重要意義。通過結合手工啟發式和語義分割模型，該方法能夠準确地識别并分割瞬态幹擾，而無需任何先驗知識。這種方法的創新之處在于其綜合利用了不同啟發式和模型的優勢，進而實作了對複雜場景中瞬态幹擾的高效處理。實驗結果表明，該方法在視角合成和分割任務中取得了顯著的改進，證明了其在實際應用中的潛力。總體而言，這篇論文提出的方法為改善NeRF模型在非靜态場景中的表現提供了一種有效的途徑，對于推動3D場景重建和視角合成領域的研究具有一定的啟發意義。

這篇論文介紹了一種名為NeRF-HuGS的新方法，用于改進神經輻射場（NeRF）在非靜态場景中的表現。NeRF是一種在新視角合成方面取得顯著成就的技術，但在處理移動物體或陰影等瞬态幹擾物時容易産生不良僞影。為了解決這個問題，本文提出了一種稱為“啟發式引導分割”（HuGS）的方法，通過結合手工制作的啟發式和最先進的分割模型的優勢，顯著增強了靜态場景與瞬态幹擾物的分離能力。具體而言，該方法通過融合基于運動結構的啟發式和顔色殘差啟發式，能夠在各種紋理配置檔案下有效地識别靜态元素。實驗結果表明，NeRF-HuGS方法在減輕瞬态幹擾物方面具有卓越的性能和穩健性，顯著提高了在非靜态場景中訓練的NeRF的效果。

本文的貢獻為：

提出了一種名為“啟發式引導分割”的新範式，用于改善在非靜态場景中訓練的NeRF，它汲取了手工制作的啟發式和最先進的分割模型的優點，以準确區分靜态場景和瞬态幹擾物。
深入研究了啟發式設計，并提出了基于SfM的啟發式和顔色殘差啟發式的無縫融合，以捕獲各種紋理配置檔案下的廣泛靜态場景元素，提供了在減輕瞬态幹擾物方面的穩健性能和優越結果。
大量實驗結果表明，本文的方法産生了接近于地面真實的清晰準确的靜态與瞬态分離結果，并顯著改善了在非靜态場景中訓練的NeRF。

首先，指出了靜态地圖Mi的準确性對訓練NeRF的品質至關重要。為了最大程度地提高Mi的準确性，研究采用了一種稱為啟發式引導分割（HuGS）的新方法。HuGS結合了手工制作的啟發式和最先進的分割模型的優勢，以識别靜态對象的粗略線索和産生清晰準确的物體邊界。此外，研究對啟發式的選擇進行了深入分析，将基于SfM的啟發式和Nerfacto中的顔色殘差啟發式相結合，以捕獲各種紋理配置檔案下的整個靜态場景元素範圍。

2.1 啟發式引導分割（HuGS）

本節介紹了啟發式引導分割（HuGS）的方法。現有的解決方案通常使用手工制作的啟發式來區分瞬态和靜态對象，但這種方法在處理現實世界的多樣性場景時存在局限性。為了解決這個問題，HuGS方法提出了一種新的架構，通過利用啟發式提供靜态對象的粗略提示，然後使用分割模型來精确地生成靜态地圖。與現有方法相比，HuGS方法能夠産生具有清晰對象邊界的靜态地圖，即使使用部分訓練的模型作為啟發式也能取得良好效果。這種方法的成功基于一個假設，即對靜态對象的粗略但準确的提示是可用的。

2.2 啟發式開發

本節介紹了啟發式開發的方法。為了提供粗略但準确的靜态對象啟發式，研究使用了兩種互補的啟發式的組合，即基于SfM的啟發式和部分訓練的Nerfacto [46]中的顔色殘差啟發式，分别擅長于檢測具有高頻和低頻紋理的靜态對象。基于SfM的啟發式利用SfM重建依賴于比對圖像間的獨特可識别特征的特點，是以适用于檢測具有高頻紋理的對象。為了區分靜态和瞬态對象，該啟發式将瞬态對象視為相對靜态對象的少數，并将其位置不斷變化。然而，與其他方法不同的是，該方法将“少數”定義為在輸入圖像中出現的頻率，這與“瞬态”的時間含義相符合。該方法能夠産生具有清晰對象邊界的靜态地圖，即使使用部分訓練的模型作為啟發式也能取得良好效果。同時，為了克服基于SfM的啟發式可能忽略低頻靜态對象的局限性，研究提出了一種綜合方法，結合了另一種啟發式的互補優勢：部分訓練的Nerfacto [46]的顔色殘差，它有效地識别平滑的瞬态對象，但在處理紋理對象時會遇到困難。該方法通過結合這兩種啟發式來提供更精确的啟發式，以捕獲各種紋理配置檔案下的靜态場景元素範圍。

實驗部分主要包括實驗設定、評估基線模型以及與其他方法的比較、分割基線模型的評估和消融研究。

實驗設定：

使用了三個資料集：Kubric資料集、Distractor資料集和Phototourism資料集。
實作細節包括使用COLMAP進行SfM重建，使用SAM作為分割模型，以及設定門檻值和參數。
應用方法到兩個基線NeRF模型，即Nerfacto和Mip-NeRF 360。

評估視角合成：

比較了方法與其他三種基于啟發式的方法（NeRF-W、HA-NeRF和RobustNeRF）以及D2NeRF在Kubric資料集上的表現。
在Kubric資料集、Distractor資料集和Phototourism資料集上進行了PSNR、SSIM和LPIPS評估。
結果顯示，方法在PSNR上取得了顯著提高，同時在忽略瞬态幹擾和保留靜态細節方面取得了良好的平衡。

評估分割：

-在Kubric資料集上進行了與各種現有分割模型的比較，包括語義分割模型、開放集分割模型和視訊分割模型。

比較了基線NeRF模型使用完全訓練後生成的靜态地圖的分割效果。
結果顯示，現有分割模型在這一特定任務上的表現有限，而基于啟發式的方法可以粗略定位瞬态幹擾，但無法提供準确的分割結果。而結合啟發式和分割模型的方法可以在沒有任何先驗知識的情況下準确地分割瞬态幹擾和靜态場景。

消融研究：

基于Nerfacto模型，研究了方法不同元件的效果，并在兩個不同的資料集上進行了驗證。
結果表明，完整的方法，即結合SfM-based啟發式和殘差啟發式與分割模型的方法，取得了最佳結果。

總的來說，實驗結果表明，該方法在視角合成和分割方面都取得了顯著的改進，并且在處理靜态場景中的瞬态幹擾方面具有很高的效果和魯棒性。

本文提出了一種新穎的啟發式引導分割範式，有效解決了現實世界NeRF訓練中普遍存在的瞬态幹擾問題。通過政策性地結合手工啟發式和最先進的語義分割模型的互補優勢，作者的方法在沒有任何先驗知識的情況下，實作了對各種場景中瞬态幹擾的高度準确分割。通過精心設計啟發式，本文的方法能夠穩健地捕獲高頻和低頻靜态場景元素。大量實驗證明了本文的方法優于現有方法。

本文僅做學術分享，如有侵權，請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維