天天看点

中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建

作者:3D视觉工坊

作者:Chenyang Wu|编辑:计算机视觉工坊

添加小助理:dddvision,备注:3D目标检测,拉你入群。文末附行业细分群

中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建

标题:MM-Gaussian: 3D Gaussian-based Multi-modal Fusion for Localization and Reconstruction in Unbounded Scene

链接:https://arxiv.org/pdf/2404.04026.pdf

1、介绍

这篇文章介绍了一个名为MM-Gaussian的多传感器融合SLAM方法,旨在实现无界场景下的定位和重建。该方法利用Livox固态激光雷达和相机获取场景数据,并采用3D高斯点云进行地图构建,同时渲染高质量图像。文章详细阐述了跟踪、重定位、地图扩展和更新等四个主要模块,其中特别设计了一个重定位模块以纠正定位失败导致的轨迹偏移。实验结果表明,该方法在定位和映射方面优于基于3D高斯点的SLAM方法。综合而言,文章通过多传感器融合实现无界场景下的高精度定位和地图构建,具有较强的鲁棒性。

中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建

2、MM-Gaussian主要包含那些组件?

中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建

根据文档,MM-Gaussian系统包含以下四个主要组件:

**跟踪(Tracking)**:利用点云配准算法获得初始姿态估计,并通过比较渲染图像和实际图像来优化姿态估计。

**重定位(Relocalization)**:检测跟踪失败,并利用3D高斯渲染图像的能力将姿态重新定位到正确的轨迹。

**地图扩展(Map Expansion)**:将当前帧的点云转换成3D高斯点并添加到地图中,以扩展地图。

**地图更新(Map Updating)**:利用图像关键帧序列优化3D高斯点的属性,以获得更好的渲染效果。

3、MM-Gaussian系统中的重定位模块是如何工作的?

中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建

主要工作流程如下:

跟踪失败检测:通过计算每个帧的损失函数,并与预设的阈值θfail进行比较。当损失超过阈值时,系统将进入跟踪失败状态。

获取参考姿态:在跟踪失败时,系统会回退到前m帧,并获取这m帧的相机姿态作为参考姿态。

"look-around"操作:固定参考姿态的平移部分,在旋转部分进行均匀采样,生成n个新的姿态。

渲染参考姿态图像:基于n个新姿态,渲染对应的RGB、深度和轮廓图像。

特征提取和匹配:利用SuperPoint提取当前帧的特征,并与n个渲染的RGB图像进行特征匹配,选择匹配点数最多且超过阈值θfeature的图像作为候选。

PnP解算:基于候选图像的相机姿态,将渲染的深度图反投影到3D空间,利用特征对应关系求解当前帧的相机姿态。

重新渲染和评估:基于计算出的当前帧姿态,重新渲染RGB、深度和轮廓图像,并计算损失。若损失低于阈值θfail,则认为重定位成功。

恢复跟踪和地图构建:跟踪、地图扩展和更新模块恢复工作,丢弃跟踪失败期间的数据。

综上所述,重定位模块通过参考姿态和look-around操作找到正确轨迹,并利用渲染图像和特征匹配恢复跟踪,从而提高系统的鲁棒性。

4、在MM-Gaussian系统中,映射阶段的目标是什么?

在MM-Gaussian系统中,映射阶段的目标是更新3D高斯点的属性,以实现更逼真的渲染效果。具体而言,在映射阶段,系统会进行以下操作:

选择关键帧:从关键帧序列中选择k-2个与当前帧最相关的关键帧,以及当前帧和最新关键帧,进行优化。

渲染图像:根据选中的关键帧姿态,渲染出RGB图像。

计算损失函数:根据输入的原始图像,计算渲染图像和原始图像之间的损失函数。

优化3D高斯属性:使用优化算法如Adam优化器,通过梯度下降来优化3D高斯点的颜色、不透明度等属性。

去除无效高斯点:在优化结束后,去除透明度过低或半径过大的无效高斯点。

细化表面细节:通过基于梯度的复制高斯点生成新的高斯点,以细化物体表面的细节表示。

通过以上操作,映射阶段旨在不断优化3D高斯点的属性,以实现高质量的图像渲染效果。

5、实验

主要包含以下内容:

实验设置:作者使用了Livox AVIA激光雷达和MV-CS050-10UC相机组成的数据采集设备,并在校园场景中收集了9个数据集。所有实验都采用了表格III中的参数设置。此外,作者使用了R3LIVE系统来获得初步的姿态真值,并使用HBA进行了进一步的优化,以评估所提出的重定位模块。

评价指标:作者在跟踪阶段使用了绝对轨迹误差的均方根误差(ATE RMSE)作为评价指标,而在映射阶段则使用了峰值信噪比(PSNR)、结构相似性指数(SSIM)和LPIPS作为评价指标。

结果比较:在跟踪阶段,作者将所提出的方法与SplaTAM、MonoGS和NeRF-LOAM等方法进行了比较。在映射阶段,作者则将所提出的方法与SplaTAM、MonoGS、3D Gaussian Splatting等方法进行了比较。结果显示,所提出的方法在所有序列中均取得了最佳的映射结果。

定性结果比较:作者还将所提出的方法与SplaTAM进行了定性比较,结果表明所提出的方法可以渲染出更清晰的图像,并更好地表示物体表面的细节。

重定位模块效果:作者还进行了重定位模块的Ablation Study,结果表明所提出的重定位模块成功将姿态恢复到正确轨迹。

中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在无界场景中的定位和重建

6、结论

定位和地图绘制是自动驾驶汽车和机器人等各种应用的关键任务。由于户外环境的无限特性,户外环境带来的挑战呈现出特别的复杂性。在这项工作中,我们提出了MM-Gaussian,一种用于无界场景中定位和映射的LiDAR相机多模态融合系统。我们的方法受到最近开发的 3D 高斯的启发,它们在实现高渲染质量和快速渲染速度方面表现出非凡的能力。具体而言,我们的系统充分利用了固态激光雷达提供的几何结构信息,解决了在无界户外场景中仅依靠视觉解决方案时遇到的深度不准确的问题。此外,我们利用3D高斯点云,借助像素级梯度下降,充分利用照片中的色彩信息,从而实现逼真的渲染效果。为了进一步增强我们系统的鲁棒性,我们设计了一个重新定位模块,该模块有助于在发生定位失败时返回正确的轨迹。在多种场景下进行的实验证明了我们方法的有效性。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读