CVPR'24 | PLGSLAM：大型室内场景如何提高定位精度和建图质量？

作者：Tianchen Deng | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

1. 读者个人理解

视觉同时定位与地图构建（SLAM）一直是一个基础的计算机视觉问题，具有广泛的应用，如自动驾驶、远程感知和虚拟/增强现实。在过去的几年中，许多传统方法已经被引入，例如ORB-SLAM，VINS等。它们可以实时估计相机姿态并构建稀疏的点云地图，具有准确的定位性能。然而，稀疏的点云地图无法满足机器人进一步的感知需求。最近，注意力转向了基于学习的密集场景重建方法。Kinectfusion，BAD-SLAM使用深度学习网络重建了有意义的全局3D地图，并显示出合理但有限的重建精度。

如今，随着神经辐射场（NeRF）的提出，在不同领域出现了许多后续工作。ESLAM使用三平面以获得更好的实时性能和重建精度。Co-SLAM使用联合坐标和稀疏参数场景进行准确的场景表示。它们可以在一个小型室内房间中实现有希望的重建质量。尽管ESLAM和Co-SLAM在较小的室内场景中表现良好，但在表示大规模室内场景（例如多房公寓）时面临挑战。实时增量NeRF-SLAM有几个关键挑战：a）场景表示能力不足：现有方法采用固定容量的全局模型，限制了对更大场景和更长视频序列的可扩展性。b）误差累积和姿态漂移：现有工作在大规模室内场景中的准确性和鲁棒性方面存在困难，因为误差会累积。

为此，这篇文章设计了用于大型室内场景和长序列的准确场景重建和鲁棒姿态估计的神经SLAM系统。提出了一种渐进式场景表示方法，当相机移动到局部场景表示的边界时动态初始化新的场景表示。整个场景被划分为多个局部场景呈现，这可以显着提高大型室内场景的场景表示能力。系统的鲁棒性也得到增强，因为误差估计是局部有界的。在局部场景表示中，提出了一种用于准确性、速度和未见区域完成的参数坐标联合编码方法。参数编码是三平面编码，坐标编码是具有MLP的单斑点编码。使用三平面来编码场景的局部高频特征，并使用MLP来表示具有内在一致性先验的全局低频特征。PLGSLAM结合了两种方法的优点，以在没有观察的区域中进行准确、平滑和填孔的重建。

此外，PLGSLAM将传统的SLAM系统与端到端姿态网络结合起来，以提高姿态估计性能。提出了一种局部到全局捆绑调整（BA）方法，可以消除在大规模室内场景和长视频序列中明显的累积误差。到目前为止，所有的神经SLAM系统都只使用端到端网络，并从选定的关键帧的局部子集中采样射线进行BA，导致姿态估计不准确、不鲁棒，以及摄像机跟踪中的显著累积误差。PLGSLAM维护一个全局关键帧数据库，并执行从局部到全局的神经拉伸和重投影捆绑调整。所提出的局部到全局BA方法可以消除所有历史观测中的累积误差。在实践中，PLGSLAM在摄像机跟踪和3D重建方面实现了SOTA性能，同时保持了实时性能。

2. 导读

最近，在密集视觉SLAM中，神经隐式场景表示已经显示出令人鼓舞的结果。然而，当扩展到大型室内场景和长序列时，现有方法在场景重建和定位准确性方面表现出低质量。这些限制主要是由于它们具有有限容量的单一全局辐射场，不适应大型场景。它们的端到端姿态网络在大型场景中累积误差增长时也不够健壮。为此，我们引入了PLGSLAM，一种神经视觉SLAM系统，能够实时进行高保真度的表面重建和强健的相机跟踪。为了处理大规模室内场景，PLGSLAM提出了一种渐进式场景表示方法，该方法动态分配新的局部场景表示，训练的是在局部滑动窗口内的帧。这使我们能够扩展到更大的室内场景，并提高了鲁棒性（即使在姿态漂移下）。在局部场景表示中，PLGSLAM利用三平面进行局部高频特征提取，用多层感知器（MLP）网络进行低频特征提取，实现了未观察区域的平滑和场景完整性。此外，我们提出了一种从局部到全局的捆绑调整方法，配合全局关键帧数据库，以解决长序列上姿态漂移的增加。实验结果表明，PLGSLAM在各种数据集和场景（无论是小型还是大型室内环境）中都实现了最先进的场景重建结果和跟踪性能。

3. 效果展示

不同方法的大规模室内场景三维重建。描述了不同方法的最终网格和相机跟踪轨迹误差（绝对轨迹误差）。右侧的颜色条显示了颜色的相对缩放。PLGSLAM在场景重建和姿态估计方面表现优异，超过了其他方法。

4. 主要贡献

（1）提出了一种渐进式场景表示方法，该方法动态启动局部场景表示，该表示使用局部窗口内的帧进行训练。这使得可扩展到广泛的室内场景和长视频序列，从而显着提高了鲁棒性。

（2）在局部场景表示中设计了一种联合参数坐标编码方法。将三平面与一blob编码编码方法相结合，以实现精确且平滑的表面重建。它不仅可以增强场景表示的能力，还可以将存储器增长从立方体减少到平方。

（3）将传统的SLAM系统与端到端姿态估计网络集成在一起。提出了一种从局部到全局的捆绑调整算法，可以减轻大规模室内场景中的累积误差。PLGSLAM在系统操作中维护一个全局关键帧数据库，从局部到全局实现捆绑调整，涵盖所有过去的观察。

5. 基本原理是啥？

PLGSLAM有两个并行线程：建图线程和跟踪线程。在建图线程中，提出了整个场景的渐进式场景表示方法。在局部场景表示中，将三面体平面与多层感知器相结合，以提高准确性和平滑性。它们都通过在线更新通过可微分渲染与系统操作来最小化精心设计的损失。至于跟踪线程，提出了一个局部到全局的捆绑调整，用于准确和稳健的姿态估计。这两个线程通过交替优化运行。

这个图示了设计的神经warp损失，计算关键帧I和关键帧I'之间的神经warp损失。

6. 实验结果

在 Replica公寓数据集上的重建结果（不剔除）与基线相比，PLGSLAM在各种场景上实现了准确和高质量的场景重建和完成。图像上用红色标注的区域表示预测准确率较低，绿色表示较高准确率，黄色表示地面真实结果。图像右下角的数字代表完成比例度量。

Replica数据集。如表1所示，PLGSLAM实现了更高的重建和姿态估计精度，成功实现了一致的完成以及高保真度的重建结果。

Scannet数据集。评估了PLGSLAM在来自ScanNet的真实世界大型房间序列（近7.5m×6.6m×2.7m）上的摄像机跟踪和重建结果。表2显示，与NICE-SLAM，ESLAM和Co-SLAM相比，PLGSLAM在姿态估计和表面重建结果方面取得了更好的结果，展示了优越的场景表示能力，并在大型室内场景中表现出更准确和更稳健的跟踪性能。

Apartment数据集。表3显示，定量上，与Co-SLAM和ESLAM相比，PLGSLAM实现了SOTA跟踪结果。这些算法通常在大规模室内数据集场景中表现出显著的累积误差。

平均帧处理时间（FPT）和内存增长率对比，PLGSLAM比以前的方法更快，并且模型大小不会随着场景长度呈立方增长。

7. 总结

这篇文章提出了一种新颖的密集SLAM系统PLGSLAM，在大型室内场景中实现准确的表面重建和姿态估计。渐进式场景表示方法使PLGSLAM能够表示大规模室内场景和长视频。三平面和多层感知器的联合编码方法进一步提高了局部场景表示的准确性。局部到全局的捆绑调整方法将传统SLAM方法与端到端姿态估计结合起来，实现了稳健而准确的摄像机跟踪，并减轻了累积误差和姿态漂移的影响。

8. 参考

[1] PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

CVPR'24 | PLGSLAM：大型室内场景如何提高定位精度和建图质量？

继续阅读

ESD防静电门禁闸机应用到哪些场景

微博接入通义大模型，应用于明星陪聊等场景，网友：又整新活了

电信日编辑选择：数字创新促进可持续发展·大模型场景应用典型案例

中国联通：深耕场景助力新型工业化走深向实

辽中区休闲农家小院民宿场景体验

热闹场景中的情感与行为深度剖析，引发人文色彩浓厚的思考

迪丽热巴更新微博，4个场景12张美照，网友：这是清空内存了吗？

《庆余年2》中陈道明饰演的庆帝穿着运动鞋奔跑场景引发热议

618大促新玩法：李佳琦直播间多元主题与场景创新大揭秘

从红场景到红单品，小红书为食饮品牌解锁流量密码

帮助残疾人“听见”“看见”并“走”得更远——科技助力，打开助残应用新场景

新场景、新科技、新体验，“5·19中国旅游日”浦东新区旅游主题活动举行

顾家家居“场景融合C店”掀起家居新零售浪潮，九店齐开，潮购狂欢

新业态新场景带动文化产业高质量发展

索尼HT-AX7积木音响体验：可移动多场景音效的临场享受

柔光人像不止明亮，vivo S17 Pro让人物融进场景里