超越GaussianEditor | GScream：利用3D高斯高效、高质量物体移除

作者：Yuxin Wan |编辑：3DCV

添加微信：cv3d008，备注：方向+单位+昵称，拉你入群。文末附行业细分群

超越GaussianEditor | GScream：利用3D高斯高效、高质量物体移除

这篇文章介绍了一种名为GScream的新方法，用于从3D场景中去除指定对象。该方法基于3D高斯溅射(3DGS)表示，通过引入单目深度估计来增强几何一致性，并采用一种新颖的特征传播机制来提高纹理一致性。实验证明，该方法不仅提高了去除物体后新视角合成的质量，也显著提高了训练和渲染的速度。与传统的基于NeRF的方法相比，GScream表现出了效率和效果的显著提升。

标题：Learning 3D Geometry and Feature Consistent Gaussian Splatting for Object Removal

作者：Yuxin Wang等人

单位：HKUST等单位

论文：https://arxiv.org/pdf/2404.13679.pdf

GScream方法的主要贡献包括以下几点：

3D Gaussian Splatting应用：首次将3D高斯溅射应用于物体移除任务，并提出了一种高效且质量较高的物体移除方法。
深度监督：引入单目深度估计作为额外几何约束，提高了3D高斯溅射的几何精度，从而提高了移除区域的几何一致性。
交叉注意力特征正则化：提出了一种交叉注意力机制，用于在可见区域和移除区域之间进行信息交换，增强了移除区域的纹理一致性。
轻量级模型：采用了一种轻量级的高斯溅射模型Scaffold-GS作为基础模型，提高了训练和渲染效率。

GScream

根据论文研究，GScream是一个利用3D高斯溅射(3DGS)进行目标移除的框架。该框架包括两个关键组件：

单目深度引导训练：通过引入单目深度估计作为额外的几何约束，来优化高斯溅射的位置，提高几何一致性。在线深度对齐和监督模块利用估计的深度图进行监督。
交叉注意力特征正则化：在可见区域和移除区域的3D高斯簇之间传播信息，以提高移除区域的纹理一致性。这包括3D高斯采样和双向交叉注意力模块。

这两个组件共同作用，提高移除区域的几何和纹理一致性，从而实现高质量的移除效果。GScream框架利用了3DGS的高效表示，使得训练和渲染速度得到提升。

4.1、单目深度引导训练

具体步骤如下：

首先，使用单目深度估计模型从多视图图像中提取每个图像的深度图。其中，对应参考视图的深度图。
然后，提出了一种在线深度对齐和监督的设计，以利用深度引导。具体来说，使用以下加权深度损失：

其中，M'代表不同视图的权重。其中，w和q是用于在线对齐的尺度和平移参数，通过解决最小二乘问题得到。

除此之外，还采用了以下损失函数：

最后，使用多视图颜色重建损失来约束渲染图像与真实图像的相似度：

通过引入单目深度估计作为额外的几何约束，并采用在线深度对齐和监督的设计，可以显著提高3DGS的几何一致性，从而为后续的纹理传播提供更准确的几何基础。

4.2、交叉注意力特征正则化

3D Gaussian Sampling：首先，针对每个视角i，作者对包含移除区域和周围区域的3D高斯簇进行采样。具体方法是根据2D掩膜边界投影3D高斯质心到当前视角，并找出落在采样2D patch内的3D高斯簇。这些3D高斯簇可以根据其2D投影是否在2D掩膜内分为移除区域和周围区域两组。作者的目标是采样移除区域和周围区域的3D点。

Bidirectional Cross-Attention：接着，作者对两组3D高斯特征进行双向交叉注意力，以在它们之间传播信息。具体方法是将两组特征拼接成两个tokens，并输入到一个双向交叉注意力结构中。该结构包含共享参数的交叉注意力模块，可以双向传播信息。输出的更新特征被分配回对应的3D高斯簇。

通过这种双向交叉注意力设计，作者可以增强移除区域和周围区域的特征一致性，提高渲染结果的纹理连贯性。作者利用3D高斯表示的显式性，通过特征传播改进移除区域的纹理质量。

实验设置：作者在SPIn-NeRF和IBRNet两个数据集上进行物体移除实验。其中，SPIn-NeRF数据集包含10个场景，每个场景100张多视角图像以及前景物体掩膜；IBRNet数据集包含5个真实手机拍摄场景。此外，作者使用了3个最新方法的基线进行比较，包括SPIn-NeRF、OR-NeRF和View-Sub。对于评价指标，作者计算了PSNR、SSIM、LPIPS、FID等指标，并记录了训练时间，以评估方法的效率。

与最新方法的比较：作者通过定量和定性比较展示了方法与最新基线的比较结果。定量结果显示，作者的方法在PSNR、SSIM、LPIPS、FID等指标上优于或持平SPIn-NeRF和OR-NeRF。定性结果显示，作者的方法在完成更复杂的移除区域时效果更好。此外，作者的方法的训练时间比SPIn-NeRF快1.5倍，比OR-NeRF快4倍。

Ablation Study：作者进行了单目深度监督和交叉注意力特征正则化的消融实验。结果显示，移除这些模块会导致指标下降，证明它们的有效性。

Additional Experiments：作者还与GaussianEditor进行了比较，并使用不同的深度估计模型和2D修复模型进行了消融实验。结果显示，准确深度估计和合理参考图对结果非常重要。

本文介绍了一种名为GScream的新方法，用于从3D场景中高效地移除特定物体。该方法利用3D高斯溅射表示场景，并通过两个关键创新点来提高移除区域的几何一致性和纹理连贯性。首先，作者提出了单目深度监督训练，利用多视角图像估计的深度信息来优化3D高斯溅射的几何表示，提高几何一致性。其次，作者提出了交叉注意力特征正则化，利用3D高斯表示的显式性，在移除区域和可见区域之间传播特征信息，提高纹理连贯性。实验结果显示，GScream方法不仅效果优于基于NeRF的现有方法，而且在训练和渲染速度上也有显著提升。这为高效场景编辑和内容生成提供了新的思路。

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

超越GaussianEditor | GScream：利用3D高斯高效、高质量物体移除

继续阅读

全球10大顶尖数学家 1. 英国牛顿 2. 德国高斯 3. 法国欧拉

谢赛宁团队突破高斯泼溅内存瓶颈，并行方案实现多显卡训练

三个丘成桐相加之后，能否与牛顿、高斯、欧拉和黎曼平起平坐？

王阳：与蒋欣分手后，转头娶小4岁的高斯，如今苦尽甘来终获成功

负心汉王阳：与蒋欣相恋多年，扭头就选择了旺夫的高斯

王阳蒋欣相恋多年未果，后娶小四岁娇妻高斯，如今二人事业红火！

#分享我的话题荣誉#一条购物评语胜过头条半月的稿酬我的快件收到了，里面附有一张奖励条子，我按照要求做了好评，把图片上传过

测量工件是否含磁性物，自动化测量可用台式高斯计TD8650

3D高斯与光场技术研究与应用研讨会成功举办

“42.02万高斯！破纪录了！”

42.02万高斯！破纪录了！

CNCC | 三维重建的尽头是高斯？三维高斯表达的构建与绘制技术进展

永磁体的磁通密度，可用台式高斯计TD8650测量

他和蒋欣相恋多年，却娶了小4岁的高斯，如今妻子和他红透半边天

王阳：虽然我与蒋欣有一段情，但余生不会辜负苦等我6年的高斯

知名主裁犯致命错误，致瓦林卡含冤出局，克耶高斯：他早该被炒了