最新开源 | 又快又好的扩散模型助力3D高斯场景补全

编辑：计算机视觉工坊

添加小助理：dddvision，备注：3D高斯，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

1、导读

3D高斯泼溅最近已经成为新视角合成的一种高效表示方法。本工作研究了其编辑能力，特别是着重于补全任务，旨在为不完整的3D场景补充高斯，以实现视觉上更好的渲染效果。与2D图像补全任务相比，补全3D高斯模型的关键是要确定新增点的相关高斯属性，这些属性的优化很大程度上受益于它们初始的3D位置。为此，我们提出使用一个图像指导的深度补全模型来指导点的初始化，该模型基于2D图像直接恢复深度图。这样的设计使我们的模型能够以与原始深度对齐的比例填充深度值，并且利用大规模扩散模型的强大先验。得益于更精确的深度补全，我们的方法，称为InFusion，在各种复杂场景下以足够更好的视觉保真度和效率（约快20倍）超越现有的替代方案。并且具有符合用户指定纹理或插入新颖物体的补全能力。

(a) InFusion 能够无缝删除 3D 对象，以用户友好的方式进行纹理编辑和对象插入。

(b) InFusion 通过扩散先验学习深度补全，显着提高深度修复质量。

下面一起来阅读一下这项工作~

2、论文信息

标题：InFusion: Inpainting 3D Gaussians via Learning Depth Completion from Diffusion Prior

作者：Zhiheng Liu等人

机构单位: 中科大，港科大，蚂蚁，阿里巴巴

项目主页地址: https://johanan528.github.io/Infusion/

Github仓库: https://github.com/ali-vilab/infusion

3、背景

3D高斯作为新视角合成的一种重要方法，因能够以惊人的渲染速度制作出具有真实感的图像而受到重视。3D高斯提供了明确的表示能力和实时处理的可能性，大大提高了编辑3D场景的实用性。特别是对于虚拟现实（VR）和增强现实（AR）等互动式下游应用，研究如何编辑3D高斯变得越来越重要。我们的研究关注于3D高斯的补全任务，这对于3d场景编辑至关重要，有效填补了确实部分，并为进一步的移动物体，增加新物体，改变纹理等编辑方式奠定基础。现有方法对3D高斯补全的初步探索通常是使用对不同角度的渲染图象进行图像层次的补全，迭代的使用修复后的2D多视图图像作为新的训练数据。但是，这种方法往往会因生成过程中的不一致而产生模糊的纹理，且速度缓慢。值得注意的是，当初始点在3D场景中精确地定位时，高斯模型的训练质量会显著提高。因此一个实际的解决方案是将需要补全位置的高斯设置到正确的初始点，从而简化整个训练过程。因此，在为需补全高斯分配初始高斯点时，进行深度补全是关键的，将修复后的深度图投影回3D场景能够实现向3D空间的无缝过渡。

因此，我们引入了InFusion，一种创新的3D高斯补全方法，我们利用了预训练扩散模型先验，训练了一个深度补全模型。我们的方法表明，Infusion可以准确确定初始点的位置，显著提高了3D高斯图像修复的保真度和效率。该模型在与未修复区域的对齐以及重构物体深度方面展现了显著的优越性。这种增强的对齐能力确保了补全高斯和原3D场景的无缝合成。此外，为了应对涉及大面积遮挡的挑战性场景， InFusion可以通过渐进的补全方式，体现了它解决此类复杂案例的能力。

4、方法

如上图InFusion技术方案的核心是一个以输入的RGB图像为条件的深度补全模型。这个模型能够根据观测到的单视图图像来预测和修复缺失的深度信息。它利用了预训练的潜在扩散模型先验，这些模型在大规模图像数据集上进行训练，从而具备了强大的生成能力和泛化性。

整体流程如下：

场景编辑初始化：首先，根据编辑需求和提供的掩码，在训练3d高斯场景的过程中，利用预先标记的掩码，构造残缺的高斯场景。
深度补全：总体来说，选择一个参考视图，并对该视角渲染得到的单张RGB图像利用图像修复模型如（Stable Diffusion XL Inpainting ）进行修复。再利用深度补全模型基于观测图像预测出缺失区域的深度信息，生成补全后的深度图。具体来说，深度补全模型接受三个输入：从3D高斯渲染得到的深度图、相应的修复后彩色图像和一个掩码，其中掩码定义了需要补全的区域。先使用变分自编码器（VAE）将深度图和彩色图像编码到潜在空间中。其中通过将深度图重复使其适合VAE的输入要求，并应用线性归一化，使得深度值主要位于[-1,1]区间内。后将编码后的深度图加噪得到的近高斯噪声，将掩码区域设置为0的编码后的深度图，编码后的RGB指导图像，以及掩码图像，在channel维度进行连接，输入到U-Net网络进行去噪，逐步从噪声中恢复出干净的深度潜在表示。再次通过VAE解码得到补全后的深度图。
3D点云构建：使用补全后的深度图和对应的彩色图像，通过3D空间中的反投影操作，将2D图像点转换为3D点云，这些点云随后与原始的3D高斯体集合合并。
Gaussian模型优化：合并后的3D点云通过进一步很少迭代次数的优化过程进行调整，以确保新补全的高斯体与原始场景在视觉上的一致性和平滑过渡。

5、实验结果

与过往方法对比，Infusion表现出保持 3D 连贯性的清晰纹理，而基线方法通常会产生模糊的纹理，尤其是复杂场景下。

在更具有挑战性的场景下，包括具有多对象遮挡的场景，Infusion相比于其他方法也能够产生令人满意的效果

同时通过与广泛使用的其他基线方法的比较，以及相应的点云可视化。比较清楚地表明，我们的方法成功地能够补出与现有几何形状对齐的正确形状。

Infusion可以通过迭代的方式，对复杂的残缺gaussian进行补全。

得益于Infusion补全3d高斯点的空间准确性，用户可以修改补全区域的外观和纹理。

通过编辑单个图像，用户可以将物体投影到真实的三维场景中。此过程将虚拟对象无缝集成到物理环境中，为场景定制提供直观的工具。

7、结论

本文提出的方法InFusion，为3D高斯场景提供了高质量且高效的补全能力。此外，我们证明了结合扩散先验能够显著增强了我们的深度图像修复模型。这个改进的深度补全模型对于各种3D应用，特别是在新视角合成领域有着很大的应用前景。我们的方法为潜在扩散模型（LDM）与3D场景编辑之间建立了联系。这种协同作用对于未来的进一步发展和优化具有重大潜力。

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

最新开源 | 又快又好的扩散模型助力3D高斯场景补全

继续阅读

你的客厅还在用普通电视？OUT啦，赶紧换Vision智慧屏4!#华为Vision智慧屏 4新品发布#今天在华为的夏季全场

#华为Vision智慧屏 4新品发布#华为的夏季全场景新品发布会在5月15号正式举行，其中最“大牌”的产品当然属于Vis

#华为WATCH FIT 3 正式发布#华为夏季全场景新品发布会有大动作，全新超轻薄智能方表WatchFIT3强势发布！

#华为WATCH FIT 3 正式发布#华为的夏季全场景新品发布会在5月15号正式举行，一口气发布了许多新品，其中华为超

天士力与华为发布数智本草大模型

比行业便宜99.3%！字节跳动的豆包大模型要掀翻行业

新款华为MateBook 14发布首次支持手写笔，用实力征服全场景

“驯服”不受控的大模型，要搞定哪些事？

原创 | 多模态大模型如何助力企业数字化转型

爱国者导弹被托盘车拉着满大街跑，真货还是模型？

华为全屋智能“反跟风”：不喊大模型口号，精耕AI康养

多功能RNA分析，百度团队的RNA语言模型登Nature子刊

OpenAI发布全新AI模型GPT-4o，微软却称自己才是AI“灭霸”

拍照证件照软件哪个效果最好？满足遵循格式要求场景

华为发布会被指造假：大模型生成图片系人工操控？

58家上市银行2023年报盘点：利息净收入2017年来首次负增长，加快布局大模型