天天看点

超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

作者:3D视觉工坊

作者:Yuxin Wan |编辑:3DCV

添加微信:cv3d008,备注:方向+单位+昵称,拉你入群。文末附行业细分群

超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

这篇文章介绍了一种名为GScream的新方法,用于从3D场景中去除指定对象。该方法基于3D高斯溅射(3DGS)表示,通过引入单目深度估计来增强几何一致性,并采用一种新颖的特征传播机制来提高纹理一致性。实验证明,该方法不仅提高了去除物体后新视角合成的质量,也显著提高了训练和渲染的速度。与传统的基于NeRF的方法相比,GScream表现出了效率和效果的显著提升。

标题:Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal

作者:Yuxin Wang等人

单位:HKUST等单位

论文:https://arxiv.org/pdf/2404.13679.pdf

GScream方法的主要贡献包括以下几点:

  • 3D Gaussian Splatting应用:首次将3D高斯溅射应用于物体移除任务,并提出了一种高效且质量较高的物体移除方法。
  • 深度监督:引入单目深度估计作为额外几何约束,提高了3D高斯溅射的几何精度,从而提高了移除区域的几何一致性。
  • 交叉注意力特征正则化:提出了一种交叉注意力机制,用于在可见区域和移除区域之间进行信息交换,增强了移除区域的纹理一致性。
  • 轻量级模型:采用了一种轻量级的高斯溅射模型Scaffold-GS作为基础模型,提高了训练和渲染效率。
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

GScream

根据论文研究,GScream是一个利用3D高斯溅射(3DGS)进行目标移除的框架。该框架包括两个关键组件:

  1. 单目深度引导训练:通过引入单目深度估计作为额外的几何约束,来优化高斯溅射的位置,提高几何一致性。在线深度对齐和监督模块利用估计的深度图进行监督。
  2. 交叉注意力特征正则化:在可见区域和移除区域的3D高斯簇之间传播信息,以提高移除区域的纹理一致性。这包括3D高斯采样和双向交叉注意力模块。

这两个组件共同作用,提高移除区域的几何和纹理一致性,从而实现高质量的移除效果。GScream框架利用了3DGS的高效表示,使得训练和渲染速度得到提升。

4.1、单目深度引导训练

具体步骤如下:

  1. 首先,使用单目深度估计模型从多视图图像中提取每个图像的深度图。其中,对应参考视图的深度图。
  2. 然后,提出了一种在线深度对齐和监督的设计,以利用深度引导。具体来说,使用以下加权深度损失:
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

其中,M'代表不同视图的权重。其中,w和q是用于在线对齐的尺度和平移参数,通过解决最小二乘问题得到。

  1. 除此之外,还采用了以下损失函数:
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除
  1. 最后,使用多视图颜色重建损失来约束渲染图像与真实图像的相似度:
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

通过引入单目深度估计作为额外的几何约束,并采用在线深度对齐和监督的设计,可以显著提高3DGS的几何一致性,从而为后续的纹理传播提供更准确的几何基础。

4.2、交叉注意力特征正则化

超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

3D Gaussian Sampling:首先,针对每个视角i,作者对包含移除区域和周围区域的3D高斯簇进行采样。具体方法是根据2D掩膜边界投影3D高斯质心到当前视角,并找出落在采样2D patch内的3D高斯簇。这些3D高斯簇可以根据其2D投影是否在2D掩膜内分为移除区域和周围区域两组。作者的目标是采样移除区域和周围区域的3D点。

Bidirectional Cross-Attention:接着,作者对两组3D高斯特征进行双向交叉注意力,以在它们之间传播信息。具体方法是将两组特征拼接成两个tokens,并输入到一个双向交叉注意力结构中。该结构包含共享参数的交叉注意力模块,可以双向传播信息。输出的更新特征被分配回对应的3D高斯簇。

通过这种双向交叉注意力设计,作者可以增强移除区域和周围区域的特征一致性,提高渲染结果的纹理连贯性。作者利用3D高斯表示的显式性,通过特征传播改进移除区域的纹理质量。

实验设置:作者在SPIn-NeRF和IBRNet两个数据集上进行物体移除实验。其中,SPIn-NeRF数据集包含10个场景,每个场景100张多视角图像以及前景物体掩膜;IBRNet数据集包含5个真实手机拍摄场景。此外,作者使用了3个最新方法的基线进行比较,包括SPIn-NeRF、OR-NeRF和View-Sub。对于评价指标,作者计算了PSNR、SSIM、LPIPS、FID等指标,并记录了训练时间,以评估方法的效率。

与最新方法的比较:作者通过定量和定性比较展示了方法与最新基线的比较结果。定量结果显示,作者的方法在PSNR、SSIM、LPIPS、FID等指标上优于或持平SPIn-NeRF和OR-NeRF。定性结果显示,作者的方法在完成更复杂的移除区域时效果更好。此外,作者的方法的训练时间比SPIn-NeRF快1.5倍,比OR-NeRF快4倍。

Ablation Study:作者进行了单目深度监督和交叉注意力特征正则化的消融实验。结果显示,移除这些模块会导致指标下降,证明它们的有效性。

Additional Experiments:作者还与GaussianEditor进行了比较,并使用不同的深度估计模型和2D修复模型进行了消融实验。结果显示,准确深度估计和合理参考图对结果非常重要。

超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除
超越GaussianEditor | GScream:利用3D高斯高效、高质量物体移除

本文介绍了一种名为GScream的新方法,用于从3D场景中高效地移除特定物体。该方法利用3D高斯溅射表示场景,并通过两个关键创新点来提高移除区域的几何一致性和纹理连贯性。首先,作者提出了单目深度监督训练,利用多视角图像估计的深度信息来优化3D高斯溅射的几何表示,提高几何一致性。其次,作者提出了交叉注意力特征正则化,利用3D高斯表示的显式性,在移除区域和可见区域之间传播特征信息,提高纹理连贯性。实验结果显示,GScream方法不仅效果优于基于NeRF的现有方法,而且在训练和渲染速度上也有显著提升。这为高效场景编辑和内容生成提供了新的思路。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读