CVPR'24开源 | 训练加速25倍！DNGaussian：稀疏3DGS最新SOTA！

大家好，计算机视觉工坊今天给大家分享一篇CVPR2024最新开源的一项工作：DNGaussian：稀疏3DGS最新SOTA！如果您有相关工作需要分享，请联系cv3d008！

0. 读者个人理解

稀疏输入的新视角合成对辐射场构成挑战。最近在神经辐射场（NeRF）方面取得了重大进展，仅凭少数输入视图就能重建逼真的外观和准确的几何形状。然而，大多数稀疏视图的NeRF都采用低处理速度和大量内存消耗实现，导致高时间和计算成本，限制了它们的实际应用。虽然一些方法通过基于网格的主干实现了更快的推理速度，但它们经常面临权衡，导致训练成本高或者渲染质量受损。最近，3D高斯飞溅引入了一个非结构化的3D高斯辐射场，采用一组3D高斯基元，从稠密的彩色输入视图中学习时，能够在快速、高质量和低成本的新视角合成方面取得显著成功。即使只有稀疏输入，它仍然可以部分保留重建一些清晰和详细的局部特征的惊人能力。然而，视图约束的减少使得场景几何的显著部分被错误学习，导致新视角合成失败。受早期深度正则化稀疏视图NeRF成功的启发，本文探讨了从预训练的单眼深度估计器中提取深度信息，以纠正不良学习几何的高斯场，并引入深度归一化正则化稀疏视图3D高斯辐射场（DNGaussian）以追求更高质量和效率的少样本新视角合成。

尽管共享相似的深度渲染形式，但3D高斯辐射场的深度正则化与NeRF所采用的方式存在显著差异。首先，现有的NeRF深度正则化策略通常采用深度来规范整个模型，这在高斯场中会产生潜在的几何冲突，从而对质量产生不利影响。具体来说，这种做法迫使高斯的形状适应平滑的单眼深度，而不是复杂的颜色外观，从而导致细节丢失和模糊外观。考虑到场景几何的基础在于高斯基元的位置而不是它们的形状，我们冻结形状参数，并提出了一种硬和软深度正则化，通过鼓励基元之间的移动来实现空间重塑。在正则化过程中，我们提出渲染两种深度以独立调整高斯的中心和不透明度，而不改变它们的形状，因此在复杂的颜色外观和平滑的粗糙深度之间取得平衡。

此外，与NeRF相比，高斯辐射场对小深度误差更敏感，这可能导致原语的分布嘈杂，并在具有复杂纹理的区域失败。现有的尺度不变深度损失通常选择将深度图与固定尺度对齐，这会忽略小的损失。为了解决这个问题，我们将全局局部深度归一化引入深度损失函数中，从而鼓励以尺度不变的方式学习小的局部深度变化。通过局部和全局尺度归一化，我们的方法引导损失函数重新关注小的局部错误，同时保持对绝对尺度的知识，以增强深度正则化的详细几何重塑过程。

整合提出的两种技术，DNGaussian在LLFF、Blender和DTU数据集上的多个稀疏视图设置中合成出具有竞争力的质量和卓越细节，相比最先进的方法，具有显著更低的内存成本、25倍的训练时间缩短和超过3000倍的渲染速度。实验还表明，DNGaussian具有适应复杂场景、广泛视角和多种材料的通用能力。

2. 导读

辐射场在从稀疏输入视图合成新视图方面表现出了令人印象深刻的性能，但现有方法存在高训练成本和较慢的推理速度的问题。本文介绍了 DNGaussian，这是一个基于三维高斯辐射场的深度正则化框架，提供了实时且高质量的低成本少样本新视图合成。我们的动机源于最近三维高斯喷洒的高效表示和惊人的质量，尽管在输入视图减少时会遇到几何退化。在高斯辐射场中，我们发现场景几何退化主要是由高斯原语的位置确定，并可以通过深度约束来缓解。因此，我们提出了硬深度和软深度正则化，以在粗略的单眼深度监督下恢复准确的场景几何，同时保持细粒度的颜色外观。为了进一步完善详细的几何重塑，我们引入了全局局部深度归一化，增强对小范围深度变化的关注。在 LLFF、DTU 和 Blender 数据集上进行了大量实验证明，DNGaussian 方法优于最先进的方法，在显著减少的内存成本、25 倍的训练时间缩短和超过 3000 倍的更快渲染速度下实现了可比较或更好的结果。

3. 效果展示

通过稀疏输入视图，DNGaussian脱颖而出，提供了质量相当高的合成视图和出色的细节，在训练期间时间显著减少了25倍，内存开销显著降低，同时实现了300 FPS的最快渲染速度。

CVPR'24开源 | 训练加速25倍！DNGaussian：稀疏3DGS最新SOTA！

3D高斯分布图展示了其从稀疏输入视图中重建一些精细细节（绿框）的潜力。然而，减少的输入视图会显著降低几何结构的质量并导致重建失败（橙色框）。在应用深度正则化后，DNGaussian成功恢复了精确的几何形状并合成了高质量的新视图。

4. 主要贡献

（1）通过鼓励高斯的移动来约束3D高斯辐射场的几何形状，从而实现粗细深度正则化空间重塑而不影响细粒度的颜色性能的硬和软深度正则化。

（2）通过在局部尺度上对深度补丁进行归一化，以便重新聚焦于小的局部深度变化，从而改善3D高斯辐射场的细节外观重建的全局局部深度归一化。

（3）一个DNGaussian框架，用于快速高质量的少样本新视角合成，结合上述两种技术，在多个基准测试中与最先进的方法相比具有竞争力的质量，以捕捉细节具有显著更低的训练成本和实时渲染。

（4）DNGaussian是第一个尝试分析和解决3D高斯飞溅在粗深度线索下的深度正则化问题的尝试。我们希望本文能激发更多关于在不受约束的情况下优化辐射场的思路。

5. 基本原理是啥？

DNGaussian的框架，从一个随机初始化开始，包括一个颜色监督模块和一个深度正则化模块。颜色监督的优化过程主要继承自3D高斯喷洒，除了一个神经颜色渲染器。在深度正则化中，我们为输入视图渲染了一个硬深度和一个软深度，并分别使用提出的全局-局部深度归一化计算了预生成的单眼深度图的损失。最后，输出的高斯场实现了高效和高质量的新视图合成。

6. 实验结果

LLFF。对LLFF数据集的定性结果和可视化结果如表1和图5所示。值得注意的是，由于NeRF基线会将颜色插值到从输入视图不可见的区域，而离散高斯辐射场直接暴露这些空白区域的黑色背景，基于3DGS的方法天生在从这些无意义的不可见区域重建指标方面存在弱点。尽管如此，DNGaussian在LPIPS得分上仍然优于所有基线，并且在PSNR、SSIM和平均误差方面达到了可比较的水平。从定量和定性结果来看，可以看出DNGaussian预测了更多的细节和精确的几何形状。FreeNeRF倾向于合成缺乏高频细节的平滑视图，而且几何形状不如深度监督的SparseNeRF和DNGaussian准确。尽管受到相同深度图的规范化，SparseNeRF在细节和几何完整性方面表现更弱。与调整良好的3DGS相比，DNGaussian在图像几何质量方面也有巨大的改进。

DTU。表1中报告的DTU 3视图设置的定量结果显示，DNGaussian在LPIPS和SSIM方面表现最佳，平均误差方面排名第二。

效率。在LLFF 3视图设置中使用RTX 3090 Ti GPU进行效率研究，以探索当前SOTA基线在有限的GPU内存（24GB/12GB）和训练时间（1.0h/0.5h）的情况下的性能，如表3所示。每组的顶行表示相应基线的默认设置，其中训练时间在单个GPU上进行相同迭代次数的测量得到。尽管在严格的资源限制下，FreeNeRF和SparseNeRF的表现较差，但DNGaussian在效率方面显示出巨大优势，可以在训练时间上实现显著加速，达到25倍，并在FPS上超过3000倍，同时合成具有竞争力质量的新视图。考虑到每场景优化和快速可视化的必要性，我们的高效性对于实际应用具有重要价值。

7. 总结

这篇文章提出了DNGaussian框架，通过深度规范化将3DGS引入到少样本新视图合成任务中。

8. 参考

[1] DNGaussian: Optimizing Sparse-View 3D Gaussian Radiance Fields with Global-Local Depth Normalization

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。