天天看点

全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!

作者:3D视觉工坊

论文题目:SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior

作者:Zhongrui Yu, Haoran Wang等

作者机构:ETH Zürich,Baidu Research等

论文链接:https://arxiv.org/pdf/2403.20079.pdf

代码连接:https://github.com/Leeiieeo/AG-Pose

这篇文章讨论了在自动驾驶模拟中,街景的新视角合成对于模拟的重要性,并介绍了目前实现此目标的主流技术是神经渲染,例如神经辐射场(NeRF)和三维高斯飞溅(3DGS)。然而,在处理街景时,当前方法在与训练视角明显偏离的视点上保持渲染质量时存在困难。为了解决这个问题,文章提出了一种新方法,通过利用扩散模型的先验以及补充的多模态数据,增强了3DGS的能力。实验结果表明,这种方法相对于当前最先进模型更有效,并展示了在渲染更广泛视角的图像方面的优势。
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!

读者理解:

这篇论文介绍了一种在自动驾驶领域中增强自由视角渲染能力的方法,通过将扩散模型与3D高斯光斑模型(3DGS)结合,提高了图像合成的准确性。论文在实验中使用了KITTI和KITTI-360数据集进行评估,并与其他方法进行了比较。通过结果分析,论文表明了这种方法在渲染质量和效率上的优越性,特别是在处理稀疏视图输入时表现出色。然而,这种方法的一个明显限制是训练时间较长,这可能会影响其在实际应用中的可行性。总的来说,这项研究为自动驾驶系统的仿真和开发提供了一种有前景的新方法,有助于提高自动驾驶系统的安全性和可靠性。

这篇论文介绍了在自动驾驶系统开发中,街景驾驶模拟的重要性,并讨论了利用神经渲染技术进行街景新视角合成的方法。当前主流技术包括神经辐射场(NeRF)和三维高斯飞溅(3DGS)。尽管已取得一些进展,但现有方法在处理与训练视角明显偏离的新视角时存在质量下降的问题。为了解决这个问题,文章提出了一种结合了扩散模型先验和多模态数据的新方法,以增强3DGS的能力。通过在自动驾驶数据集上微调扩散模型,并结合激光雷达点云的深度信息,该方法在街景新视角合成方面取得了竞争性的性能。这种方法不仅提高了图像渲染质量,而且在处理与训练视角偏离的视角时也表现出色。文章提出的方法不会影响3DGS的实时推理能力,可为自动驾驶模拟系统提供高效的渲染和灵活的视角控制。

本文的贡献为:

  • 提出了一种针对街景的新视角合成的新框架,在保持渲染效率的前提下增强了视角控制的自由度,适用于自动驾驶模拟。
  • 据所知,本文的方法是第一个从稀疏视图输入重建问题的角度解决街景合成任务的尝试,并通过将3D高斯飞溅与定制的扩散模型相结合来解决这一挑战。
  • 提出了一种在自动驾驶数据集上微调扩散模型并赋予其NVS能力的新策略,克服了传统对多视角数据集和相对相机姿态的依赖。
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!

本文介绍了一种用于街景视角合成的新方法。该方法旨在在给定一组由车辆捕获的图像和相应的相机姿态的情况下,从任意视角渲染图像。由于移动车辆采集的图像受到视角限制,场景中的对象通常只能从单个视角观察,并且只出现在少数图像中。为了解决这个问题,作者提出了一种利用从经过微调的扩散模型得出的先验和来自激光雷达的空间信息的方法,以增强3D高斯飞溅模型对未观察到世界的感知。具体而言,方法包括两个主要组件:首先,在驾驶场景数据集上微调了一个稳定的扩散模型,条件是来自相邻帧的参考图像和来自激光雷达点云的深度信息。然后,将经过微调的扩散模型集成到3D高斯飞溅管道中,以指导未见视图的合成。这种方法在KITTI和KITTI-360数据集上展现了竞争性的性能,并且在处理与训练视角偏离的视角时表现出色,能够提高图像渲染质量。

2.1 微调扩散模型

本节介绍了一种用于微调扩散模型的新方法,该方法专门针对驾驶数据进行微调。驾驶数据按顺序收集,因此我们可以轻松地确定任何新视角的最接近的前后帧。作者将这些相邻帧的图像作为参考图像,因为它们提供了有价值的上下文信息。此外,360°激光雷达点云使我们能够为参考帧和新视图推导深度图,从而全面理解跨视角的相对空间信息。通过微调扩散模型,作者引导它从上下文图像中学习应该存在的内容,以及从深度信息中学习对象之间的空间关系。微调分为两个阶段:第一阶段是基于图像的扩散模型,第二阶段是添加深度控制网络。第一阶段旨在使扩散模型从相邻帧的图像中学习场景的高级信息,而不包括姿态信息。第二阶段旨在利用3D信息控制模型以实现更准确的图像生成。通过这两个阶段的微调,作者的方法在自动驾驶场景中展现出了优异的性能。

2.2 带有扩散先验的3D高斯飞溅

本节介绍了在街景图像合成中使用的方法。首先,通过微调Diffusion模型,利用邻近帧的图像和来自LiDAR点云的深度信息来提高对未观察到世界的认识。随后,将微调后的Diffusion模型整合到3D高斯飞溅(3DGS)流程中,以引导对未观察视图的合成。3DGS将场景表示为大量的3D高斯模型,并通过渲染和损失函数优化这些模型的参数,以生成图像。在训练过程中,还通过对伪视图进行渲染和引导图像的生成,来进一步优化模型的训练。整体而言,这些方法有效地提高了对街景图像合成的质量和效率。

  • 实现细节:使用稳定扩散 1.5 进行微调,并引入额外的 CLIP 图像编码器和深度编码器。深度控制网络初始化为微调后的 U-Net 编码器。
  • 数据集:在 KITTI 和 KITTI-360 数据集上进行评估,仅在 KITTI-360 数据集的约 12,000 张图像上微调扩散模型。
  • 对比方法:将论文方法与基于 3DGS 框架的基线方法进行比较,并保持深度损失的超参数相同。此外,还选择了 Zip-NeRF 和 MARS 作为竞争方法。
  • 评估指标:使用 PSNR、SSIM 和 LPIPS 评估渲染质量,并通过 BRISQUE 和 FID 分数评估对于未知视角的渲染质量。
  • 实验结果:在 KITTI 和 KITTI-360 数据集上,论文方法在渲染质量上明显优于基线方法 3DGS,并在 KITTI-25% 设置下表现优于所有竞争对手。
  • 消融研究:对方法的两个主要过程进行了消融实验。结果表明,使用参考图像和深度条件进行微调以及用于正则化训练伪视图的损失函数都对方法的性能有贡献。
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!

这篇论文提出了一种在自动驾驶场景中增强自由视角渲染能力的方法。他们将扩散模型集成到了3D高斯光斑模型(3DGS)中,以提供更准确的图像合成。在实验中,他们使用KITTI和KITTI-360数据集进行评估,并与其他方法进行了比较。结果表明,他们的方法在渲染质量和效率方面表现出色,尤其在处理稀疏视图输入时表现最佳。然而,该方法的一个显著限制是训练时间较长。总的来说,这项研究为自动驾驶模拟提供了一种新的视角,有助于增强自动驾驶系统的安全性和可靠性。

全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!
全面超越!开源!百度最强SOTA:基于扩散模型的3DGS!

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读