浙大开源 | 18FPS！精度直追ORB-SLAM！最新的GS SLAM质量太高啦

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

这篇文章介绍了RTG-SLAM，这是一个实时三维重建系统，使用RGBD相机针对大型环境使用高斯喷溅，具有紧凑的高斯表示和高效的即时高斯优化方案。

在紧凑高斯表示中，作者强制每个高斯要么是不透明的，要么几乎是透明的，不透明的高斯适合表面（即深度图）和主要颜色，透明的高斯适合残留颜色。作者的意图是使用单个不透明的高斯来适应表面的局部区域，而不需要多个重叠的高斯。然而，即使对于不透明的高斯，如果以与渲染颜色相同的方式渲染其深度，那么产生的深度值将从高斯中心下降，使得使用这个高斯单独来表示一个局部区域不准确。为此，作者提出以不同的方式渲染深度，将每个不透明的高斯视为高斯的主平面上的椭圆盘，这样它可以自己很好地适应局部区域或大的平坦区域。在这种设置下，深度渲染非常方便。在颜色渲染期间，已经对高斯进行了排序，以及它们对于每个像素的不透明度。通过从前到后选择第一个对于该像素的不透明度大于给定阈值的高斯，考虑光线击中椭圆盘并使用光线和盘平面的方程计算交点。然后，像素的深度等于交点的深度。整个过程是可微分的，因此可以通过反向传播测量渲染和输入深度图之间的差异来优化高斯。紧凑的高斯表示可以用更少的高斯来适应三维表面，从而大大减少了内存和计算成本。

作者为紧凑的高斯表示设计了一种高效的即时高斯优化方案，首先根据是否已充分优化将所有高斯分类为稳定和不稳定的，预期稳定的高斯能够很好地适应先前观察到的RGBD图像，否则不稳定。然后，给定扫描期间的新RGBD帧，而不是根据视图空间位置梯度自适应地密集化高斯，显式地为三种类型的像素添加高斯，这些像素具有有效深度：新观察到的像素、颜色重新渲染后具有大色差的像素以及深度重新渲染后具有大深度差的像素。对于新观察到的像素或深度误差较大的像素，这意味着需要新的不透明高斯来适应表面，作者均匀地采样一小部分像素来初始化不透明的高斯。对于仅具有大色差的像素，这意味着它们已经具有很好地适应表面但在当前视图中外观不佳的不透明高斯，应用相同的像素采样并检查相关的不透明高斯的状态。如果不稳定，将它们保留以继续优化。否则，添加一个透明的高斯，为当前视图中的颜色提供残余颜色，而不破坏先前的观察。然后，根据颜色和深度的重新渲染损失启动优化过程。请注意，只优化不稳定的高斯，并且只渲染由不稳定的高斯占据的像素。通过这种方式，要优化的高斯数量和要渲染的像素数量大大减少，并且优化可以实时完成。作者还建立了一种状态管理机制，使稳定/不稳定的高斯之间可以相互转换，以及删除长期错误的高斯。最后，为了在复杂的现实世界环境中实现准确的跟踪，使用经典的帧到模型ICP作为前端里程计，并维护一组地标用于后端图优化。

RTG-SLAM的运行速度大约是最先进的基于NeRF的SLAM的两倍，内存成本约为一半，速度和内存也超过了SplaTAM，其中SplaTAM在扫描家庭场景时以0.31 fps运行，并且在扫描过程中内存不足。

下面一起来阅读一下这项工作~

标题：RTG-SLAM: Real-time 3D Reconstruction at Scale using Gaussian Splatting

作者：Zhexi Peng, Tianjia Shao, Yong Liu, Jingke Zhou, Yin Yang, Jingdong Wang, Kun Zhou

机构：浙江大学、犹他大学、百度

原文链接：https://arxiv.org/pdf/2404.19706

代码链接：https://gapszju.github.io/RTG-SLAM

我们提出了 RTG-SLAM，这是一个使用高斯点阵的 RGBD 相机进行大规模环境实时三维重建系统。RTG-SLAM 具有紧凑的高斯表示和高效的即时高斯优化方案。我们强制使每个高斯要么不透明要么几乎透明，其中不透明的高斯适应表面和主导颜色，透明的高斯适应残余颜色。通过以与颜色渲染不同的方式渲染深度，我们使单个不透明高斯能够很好地适应局部表面区域，而无需多个重叠的高斯，从而大大减少了内存和计算成本。对于即时高斯优化，我们明确为每帧的三种类型的像素添加高斯：新观测到的像素、颜色误差较大的像素和深度误差较大的像素。我们还将所有高斯分为稳定和不稳定两类，其中稳定的高斯预期能够很好地适应先前观测到的 RGBD 图像，否则为不稳定。我们仅优化不稳定的高斯，并且仅渲染由不稳定高斯占据的像素。通过这种方式，要优化的高斯数量和要渲染的像素数量都大大减少了，优化可以实时完成。我们展示了各种真实大场景的实时重建。与基于 NeRF 的 RGBD SLAM 最先进的技术相比，我们的系统在重建质量方面达到了可比较的高水平，但速度大约是其两倍，内存成本减半，并且在新视角合成的逼真度和相机跟踪精度方面表现出优越性。

RTG-SLAM使用最先进的 NeRF-based RGBD SLAM 技术对一个酒店房间（约 56.3 ^2 × 1.7 ）进行了重建，而且没有进行任何后处理。与最先进的 NeRF-based RGBD SLAM 相比，RTG-SLAM在速度上大约是两倍，内存成本是一半，同时在新视角合成方面表现更高的真实感。

浙大开源 | 18FPS！精度直追ORB-SLAM！最新的GS SLAM质量太高啦

左：强制每个高斯要么不透明要么接近透明，并且使用不透明高斯对深度进行不同于颜色的渲染，以便单个不透明高斯可以很好地拟合表面的局部区域，从而产生适合具有更少高斯的3D表面的紧凑高斯表示。右计算颜色误差图、深度误差图和透光图来确定在哪里添加不透明高斯或透明高斯，优化不稳定的高斯分布，并且只渲染它们所占据的像素进行优化。

如果深度以与颜色相同的方式渲染，不透明的高斯将产生从高斯中心下降的变化的深度值，从而使表示局部表面不准确。相比之下，作者将不透明高斯视为主平面上的椭球圆盘，可以很好地拟合局部区域。

时间/内存性能。报告了建图优化（例如，NeRF优化和高斯优化）的每次迭代时间，每帧的跟踪和建图时间，整个重建帧速率，SLAM过程中的最大内存使用量以及重建场景的最终大小。可以看到RTG-SLAM的重建速度大约是NeRF SLAM方法的两倍，约为SplaTAM的46倍，后者也基于3D高斯函数。值得注意的是，与其他方法相比，RTG-SLAM的方法的内存成本要小得多，这能够扫描大规模环境。注意SplaTAM使用alpha混合来将深度渲染为颜色，因此产生了比RTG-SLAM（在家庭场景中耗尽内存之前的7155880）更多的高斯函数，我们的方法成本（987524）。尽管他们存储了RGB值而不是球谐函数以减少内存开销，但他们的内存成本仍然非常高，在家庭场景中耗尽内存。

跟踪准确度。在真实世界数据集TUM-RGBD上的相机跟踪精度见表2，RTG-SLAM在两个数据集上均优于NeRF SLAM方法和并发的高斯SLAM方法，并且在真实世界数据上实现了与经典SLAM方法相当的跟踪精度。

新视角合成。基于NeRF的方法需要深度图来合成高质量图像，因此RTG-SLAM使用重建的网格来为它们渲染深度图。还在ScanNet ++测试视图上定量比较了新视角合成，其中NeRF-based方法使用地面实况深度。可以看到，RTG-SLAM和SplaTAM清晰地产生了质量更高的图像，具有更少的伪影和更高的保真度外观。

重建质量。RTG-SLAM的几何精度仍然优于除Point-SLAM之外的其他方法，并实现了可比较的完成结果。这表明我们的紧凑高斯函数能够准确地拟合具有少量高斯函数的表面。

定性比较重建结果和新视角合成。请注意，SplaTAM和ESLAM在场景中耗尽了内存。RTG-SLAM可以实现与最先进的NeRF SLAM方法相当的高质量重建，并在新视角合成方面超越它们。

这篇文章提出了一种用于大规模环境的实时3D重建系统，采用高斯分层。引入了一种紧凑的高斯表示，以减少需要拟合表面的高斯数量，从而极大地降低了内存和计算成本。对于即时高斯优化，明确地为每帧的三种像素添加高斯：新观测到的像素，颜色误差大的像素和深度误差大的像素，并且仅优化不稳定的高斯，只渲染被不稳定高斯占据的像素。重建了大规模的真实扫描场景，并且比最先进的NeRF SLAM方法和同时的高斯SLAM方法都取得了更好的性能。由于为了达到规模上的实时重建而只使用不透明高斯和透明高斯来表示场景，与原始高斯相比，渲染质量不可避免地降低了。如何在保持实时性能的同时提高渲染质量值得未来探讨。此外，反射或透明材料可能导致表面颜色在不同视图之间大幅变化，使一些高斯频繁地在两种状态之间切换并且优化不好。未来，作者还将扩展RTG-SLAM以处理户外场景、动态物体、快速相机移动和具有不同光照的场景。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。