天天看点

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

作者:3D视觉工坊

1、读者理解

随着神经辐射场(NeRF)的出现,神经隐式表示在各个领域得到了广泛应用,包括同时定位与地图构建。然而,当前的神经隐式SLAM面临着参数数量与性能之间的挑战性权衡问题。为了解决这个问题,本文提出了稀疏三平面编码,它仅使用2~4%的常规三平面参数(从100MB减少到2~4MB),就可以高效地实现高达512分辨率的场景重建。在此基础上,本文设计了S3-SLAM,通过稀疏化平面参数并整合三平面的正交特征,实现了快速且高质量的跟踪与映射。此外,本文开发了分层捆绑调整,以实现全局一致的几何结构和高分辨率的外观重建。实验结果表明,本文的方法在三个数据集上以最小参数实现了竞争性的跟踪和场景重建。

2、论文信息

标题:S3-SLAM: Sparse Tri-plane Encoding for Neural Implicit SLAM

作者:Zhiyao Zhang等人

单位:Northeastern University

论文:https://arxiv.org/pdf/2404.18284

3、主要贡献

稀疏三平面编码:该方法通过使用哈希网格对正交平面特征进行稀疏化,显著减少了模型内存消耗,以应对神经隐式表示中参数数量与重建质量之间的权衡挑战。

S3-SLAM:基于稀疏三平面编码,作者开发了S3-SLAM方法,该方法实现了快速迭代和参数稀疏化,从而实现准确的相机姿态估计和场景重建。通过引入多分辨率稀疏三平面来表示复杂场景,仅需2∼4%的常规三平面参数,即可实现更高分辨率的表示。

分层捆绑调整:在S3-SLAM中,作者设计了分层捆绑调整方法,用于精炼局部外观并确保全局几何一致性,从而实现高质量的外观重建和准确的姿态估计。

实验结果:实验结果表明,S3-SLAM使用最小参数和迭代次数,实现了准确和稳健的相机跟踪,并同时实现了高保真的场景重建。

4、紧凑高效的场景表示

本文提出了一个紧凑高效的稀疏三平面编码,以解决神经隐式表示在参数数量和重建质量之间的权衡问题。稀疏三平面编码通过使用哈希网格对正交平面特征进行稀疏化,显著减少了模型内存消耗。

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

本文建立了三个互相正交的平面,并将3D点投影到这些平面上,然后对这些投影点应用稀疏参数编码。目前,多分辨率哈希编码和排列格哈希编码是稀疏参数编码中的流行技术。如图2所示,在稀疏化设计中,多分辨率哈希编码可以生成更平滑的表面。因此,本文用2D正方形哈希网格平面、、表示投影平面。当哈希网格平面顶点的索引x时,本文通过哈希函数获得顶点索引:

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

空间哈希函数将顶点索引映射到一个长度为2T的哈希表中,限制需要更新的顶点最大数量,从而实现单平面稀疏编码。具体来说,本文的稀疏三平面编码通过2D哈希网格平面对3D点的投影点、、进行编码。之后,本文将这些编码特征串联起来,得到最终稀疏三平面编码:

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

此外,由于哈希表能够有效维护特征,本文成功地增强了稀疏三平面编码的紧凑性,同时实现了三平面的稀疏特征表示。稀疏三平面编码使神经网络更容易捕捉高频几何和外观。

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

本文设计了一个多分辨率稀疏三平面编码,以更有效地表示复杂场景。受多分辨率哈希编码的启发,如图3所示,本文使用多级2D哈希网格平面和分辨率增长因子构建多分辨率三平面。随后,本文对每个三平面应用本文的稀疏三平面编码,并将结果特征串联起来,实现了多分辨率稀疏三平面编码。这种方法使得本文的场景表示能够融合多级特征,有效地表示精细的外观和几何。为了重建高质量的场景,本文使用两个多分辨率稀疏三平面编码来分别编码场景的几何和外观,虽然牺牲了一些速度,但确保了更准确的外观重建。

由于本文的表示稀疏,本文使用小型多层感知器作为解码器。本文的解码器架构由SDF解码器和颜色解码器组成。SDF解码器具有两个隐藏层,每层包含32个神经元和ReLU作为非线性激活函数。类似地,本文使用相同的配置来配置颜色解码器,唯一的区别是在输出层添加了Sigmoid激活函数。小型多层感知器的应用确保了本文的方法不会显著增加参数数量。解码器将本文的多分辨率稀疏三平面编码解码为外观和准确的TSDF表示。

5、颜色和几何渲染

给定相机中心和方向,本文沿着射线,获取样本点,其中ti是选择的采样距离。在采样距离的选择上,NeuS采用了分层采样方法,可以获得精确的表面重建,但计算开销较大。而Instant-NGP采用了均匀采样和逆空间变换,适用于无界场景,但不太适合重建表面网格。本文在这两种采样方法之间取得平衡,并采用了深度引导采样。

将深度观察视为表面,在范围内均匀采样三分之二点,以确保在表面附近有足够的训练。将剩下的三分之一的射线进行均匀采样,以减少空区域中的伪影。其中tr表示TSDF的截断距离,是一个超参数。通过深度引导采样方法,可以确保在表面附近有足够多的训练样本,同时避免在空区域中采样过多,从而平衡表面细节和空区域渲染。

对于相机中心o和方向d,沿射线r=o+tid采样M个点,其中ti表示采样距离。通过解码器预测每个采样点的颜色ci和SDF si。计算每个采样点的权重wi,并将其应用于颜色和深度的加权平均。定义渲染的颜色Cr和深度Dr,并计算与真实值之间的MSE损失。通过将渲染颜色、深度和SDF与真实值进行比较,并计算MSE损失,可以得到颜色损失Lc、深度损失Ld和SDF损失Lsdf。通过对上述损失进行加权,得到最终的损失函数L。

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

5、跟踪和映射

本文的跟踪独立运行,无需依赖束调整(Bundle Adjustment, BA)。跟踪利用恒速运动模型初始化相机姿态。本文的跟踪通过最小化渲染图像和真实图像之间的均方误差,并通过梯度反向传播来减小RGB-D点云与几何表面之间的最短距离(即预测的SDF),从而更新相机姿态。

给定预测的当前相机姿态Tcur、前一参考关键帧Tref的姿态,以及相机内参K,本文根据图像帧之间的投影关系来确定关键帧序列。具体来说,本文将当前帧的像素ucur反向投影到世界坐标系,然后将其投影到前一个参考关键帧的像素uref。

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

随后,本文排除不在标准化图像坐标范围内的点。如果成功投影到参考关键帧像素平面上的点的比例低于本文选择的阈值,本文将当前帧识别为关键帧。

本文设计了一个分层束调整(HBA)方法,以提高外观质量,确保全局结构一致性,同时重建高分辨率的场景外观。在HBA的每次迭代中,本文从小部分关键帧中采样少量射线,以保持全局一致性。为了确保局部一致性,本文建立了一个局部滑动窗口,从滑动窗口内的关键帧中采样更多射线,以彻底估计局部相机姿态,并重建精细级别的场景几何和外观。

在S3-SLAM中,全局样本射线占总样本射线的10%,而局部样本射线的数量是根据每个关键帧的最佳损失进行加权的。本文确保滑动窗口内所有关键帧的加权损失之和归一化为1。此外,为了防止本文的采样策略过度受训练损失的影响,可能导致局部发散,本文为每个帧设置了一个最小的采样射线比例,即总射线的10%。这种策略确保了损失较高的帧获得更多的训练重点,提高了局部外观细节的精度,同时减少了训练发散对采样策略的影响。

6、实验结果

实验设置:作者在三个数据集上评估了S3-SLAM方法,包括一个合成数据集Replica,以及两个真实数据集ScanNet和TUM RGB-D。Replica包含8个场景,ScanNet包含6个场景,而TUM RGB-D包含3个场景,场景之间具有显著的旋转和深度噪声。ScanNet的地面真值姿态来源于BundleFusion,而TUM RGB-D的地面真值则来自运动捕捉系统。

跟踪和重建评估:在Replica数据集上,作者评估了重建性能。结果显示,所提出方法在迭代次数较少的情况下获得了最高质量的重建效果。在ScanNet数据集上,作者跟踪性能优于现有神经隐式SLAM方法。在TUM RGB-D数据集上,作者的跟踪结果也表现出竞争力。稀疏三平面编码的有效性:作者进行了全局几何一致性和参数效率方面的实验,证明了所提出的稀疏三平面编码的有效性。

性能分析:作者对方法进行了性能分析,展示了迭代速度和参数数量的优势。

消融实验:作者进行了消融实验,证明了稀疏三平面编码和分层束调整的有效性。

东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建
东北大学 | 神经隐式SLAM SOTA:参数减少30倍,高质量场景重建

作者通过在多个数据集上的实验,验证了所提出方法在跟踪、重建和参数效率方面的优势。实验结果表明,该方法可以有效地实现高质量的跟踪和重建,同时具有较小的参数数量和较快的迭代速度。

7、总结

本文介绍了一种名为S3-SLAM的神经隐式SLAM方法,该方法利用稀疏三平面编码进行场景表示,实现了在参数数量和重建质量之间的高效平衡。具体来说,S3-SLAM采用了稀疏参数编码技术,将三维点投影到三个正交平面上,并使用稀疏的二维哈希网格平面表示这些平面。通过多层哈希网格,该方法能够有效地表示场景的几何和外观信息,同时大大减少了参数数量。为了实现高质量的局部重建,S3-SLAM采用了分层束调整方法,在全局保持几何一致性的同时,实现了高分辨率的局部几何和外观重建。在Replica、ScanNet和TUM RGB-D三个数据集上的实验结果表明,该方法在参数数量较少的情况下,实现了与其他方法相媲美甚至更优的跟踪和重建效果。总的来说,S3-SLAM在参数数量和重建质量之间取得了良好的平衡,为神经隐式SLAM提供了一种有效的场景表示方法。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

继续阅读