CVPR'24 | NeRF新突破，启发式引导分割解决瞬态干扰

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

论文题目：NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

作者：Jiahao Chen, Yipeng Qin等

作者机构：Sun Yat-sen University ,Cardiff University 等

论文链接：https://arxiv.org/pdf/2403.17537.pdf

代码连接：https://cnhaox.github.io/NeRF-HuGS/

这篇论文介绍了一种名为NeRF-HuGS的新方法，旨在改进神经辐射场（NeRF）在非静态场景中的表现。NeRF以其在新视角合成和3D场景重建方面的出色表现而闻名，但在处理移动物体或阴影等瞬态干扰时存在问题。为了解决这一问题，研究者提出了“启发式引导分割”（HuGS）范式，通过结合手工制作的启发式和最先进的分割模型，显著增强了静态场景与瞬态干扰物的分离能力。他们设计了精心的启发式方法，包括基于运动结构（SfM）的启发式和颜色残差启发式的融合，以适应各种纹理配置文件。实验证明，这种方法在减轻非静态场景中训练的NeRF的瞬态干扰方面具有优越性和稳健性。

这篇论文提出了一种新颖的方法来解决在NeRF训练中常见的瞬态干扰问题，这对于提高NeRF模型在现实世界中的适用性和鲁棒性具有重要意义。通过结合手工启发式和语义分割模型，该方法能够准确地识别并分割瞬态干扰，而无需任何先验知识。这种方法的创新之处在于其综合利用了不同启发式和模型的优势，从而实现了对复杂场景中瞬态干扰的高效处理。实验结果表明，该方法在视角合成和分割任务中取得了显著的改进，证明了其在实际应用中的潜力。总体而言，这篇论文提出的方法为改善NeRF模型在非静态场景中的表现提供了一种有效的途径，对于推动3D场景重建和视角合成领域的研究具有一定的启发意义。

这篇论文介绍了一种名为NeRF-HuGS的新方法，用于改进神经辐射场（NeRF）在非静态场景中的表现。NeRF是一种在新视角合成方面取得显著成就的技术，但在处理移动物体或阴影等瞬态干扰物时容易产生不良伪影。为了解决这个问题，本文提出了一种称为“启发式引导分割”（HuGS）的方法，通过结合手工制作的启发式和最先进的分割模型的优势，显著增强了静态场景与瞬态干扰物的分离能力。具体而言，该方法通过融合基于运动结构的启发式和颜色残差启发式，能够在各种纹理配置文件下有效地识别静态元素。实验结果表明，NeRF-HuGS方法在减轻瞬态干扰物方面具有卓越的性能和稳健性，显著提高了在非静态场景中训练的NeRF的效果。

本文的贡献为：

提出了一种名为“启发式引导分割”的新范式，用于改善在非静态场景中训练的NeRF，它汲取了手工制作的启发式和最先进的分割模型的优点，以准确区分静态场景和瞬态干扰物。
深入研究了启发式设计，并提出了基于SfM的启发式和颜色残差启发式的无缝融合，以捕获各种纹理配置文件下的广泛静态场景元素，提供了在减轻瞬态干扰物方面的稳健性能和优越结果。
大量实验结果表明，本文的方法产生了接近于地面真实的清晰准确的静态与瞬态分离结果，并显著改善了在非静态场景中训练的NeRF。

首先，指出了静态地图Mi的准确性对训练NeRF的质量至关重要。为了最大程度地提高Mi的准确性，研究采用了一种称为启发式引导分割（HuGS）的新方法。HuGS结合了手工制作的启发式和最先进的分割模型的优势，以识别静态对象的粗略线索和产生清晰准确的物体边界。此外，研究对启发式的选择进行了深入分析，将基于SfM的启发式和Nerfacto中的颜色残差启发式相结合，以捕获各种纹理配置文件下的整个静态场景元素范围。

2.1 启发式引导分割（HuGS）

本节介绍了启发式引导分割（HuGS）的方法。现有的解决方案通常使用手工制作的启发式来区分瞬态和静态对象，但这种方法在处理现实世界的多样性场景时存在局限性。为了解决这个问题，HuGS方法提出了一种新的框架，通过利用启发式提供静态对象的粗略提示，然后使用分割模型来精确地生成静态地图。与现有方法相比，HuGS方法能够产生具有清晰对象边界的静态地图，即使使用部分训练的模型作为启发式也能取得良好效果。这种方法的成功基于一个假设，即对静态对象的粗略但准确的提示是可用的。

2.2 启发式开发

本节介绍了启发式开发的方法。为了提供粗略但准确的静态对象启发式，研究使用了两种互补的启发式的组合，即基于SfM的启发式和部分训练的Nerfacto [46]中的颜色残差启发式，分别擅长于检测具有高频和低频纹理的静态对象。基于SfM的启发式利用SfM重建依赖于匹配图像间的独特可识别特征的特点，因此适用于检测具有高频纹理的对象。为了区分静态和瞬态对象，该启发式将瞬态对象视为相对静态对象的少数，并将其位置不断变化。然而，与其他方法不同的是，该方法将“少数”定义为在输入图像中出现的频率，这与“瞬态”的时间含义相符合。该方法能够产生具有清晰对象边界的静态地图，即使使用部分训练的模型作为启发式也能取得良好效果。同时，为了克服基于SfM的启发式可能忽略低频静态对象的局限性，研究提出了一种综合方法，结合了另一种启发式的互补优势：部分训练的Nerfacto [46]的颜色残差，它有效地识别平滑的瞬态对象，但在处理纹理对象时会遇到困难。该方法通过结合这两种启发式来提供更精确的启发式，以捕获各种纹理配置文件下的静态场景元素范围。

实验部分主要包括实验设置、评估基线模型以及与其他方法的比较、分割基线模型的评估和消融研究。

实验设置：

使用了三个数据集：Kubric数据集、Distractor数据集和Phototourism数据集。
实现细节包括使用COLMAP进行SfM重建，使用SAM作为分割模型，以及设置阈值和参数。
应用方法到两个基线NeRF模型，即Nerfacto和Mip-NeRF 360。

评估视角合成：

比较了方法与其他三种基于启发式的方法（NeRF-W、HA-NeRF和RobustNeRF）以及D2NeRF在Kubric数据集上的表现。
在Kubric数据集、Distractor数据集和Phototourism数据集上进行了PSNR、SSIM和LPIPS评估。
结果显示，方法在PSNR上取得了显著提高，同时在忽略瞬态干扰和保留静态细节方面取得了良好的平衡。

评估分割：

-在Kubric数据集上进行了与各种现有分割模型的比较，包括语义分割模型、开放集分割模型和视频分割模型。

比较了基线NeRF模型使用完全训练后生成的静态地图的分割效果。
结果显示，现有分割模型在这一特定任务上的表现有限，而基于启发式的方法可以粗略定位瞬态干扰，但无法提供准确的分割结果。而结合启发式和分割模型的方法可以在没有任何先验知识的情况下准确地分割瞬态干扰和静态场景。

消融研究：

基于Nerfacto模型，研究了方法不同组件的效果，并在两个不同的数据集上进行了验证。
结果表明，完整的方法，即结合SfM-based启发式和残差启发式与分割模型的方法，取得了最佳结果。

总的来说，实验结果表明，该方法在视角合成和分割方面都取得了显著的改进，并且在处理静态场景中的瞬态干扰方面具有很高的效果和鲁棒性。

本文提出了一种新颖的启发式引导分割范式，有效解决了现实世界NeRF训练中普遍存在的瞬态干扰问题。通过策略性地结合手工启发式和最先进的语义分割模型的互补优势，作者的方法在没有任何先验知识的情况下，实现了对各种场景中瞬态干扰的高度准确分割。通过精心设计启发式，本文的方法能够稳健地捕获高频和低频静态场景元素。大量实验证明了本文的方法优于现有方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维