天天看点

如何在特征匹配中解决尺度模糊问题?

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

无论您喜欢英寸还是厘米,我们用比例-度量单位来测量和理解世界。不幸的是,当我们将世界投射到图像平面时,比例-度量的质量就会丢失。尺度模糊是使计算机视觉及其上的应用变得困难的一个方面。想象一下增强现实问题,两个人通过手机观看同一场景。假设我们想要插入按比例缩放的虚拟内容,例如虚拟人物,到两个视图中。为了以一种可信的方式进行这样的操作,我们需要恢复两个相机之间的相对姿态,而且需要按比例缩放。

在计算机视觉中,估计两幅图像之间的相对姿态是一个长期存在的问题。基于特征匹配的解决方案在诸如宽基线匹配或季节变化等逆境下仍能提供出色的质量。然而,它们的几何推理仅限于二维平面,因此相机之间的距离仍然未知。

在某些情况下,我们可以借助专用硬件来恢复场景比例。现代手机配备了IMU传感器,但需要用户移动。一些手机配备了测量深度的激光雷达传感器,但这些传感器在范围上受限,并且仅限于极少数高端设备。

最近被正式提出的"无地图重定位"提供了两幅图像和内参,但没有更进一步的测量。到目前为止,恢复度量相对姿态的最佳解决方案是将二维特征匹配与单独的深度估计网络相结合,以将对应关系提升到三维度量空间。然而,存在两个问题。首先,特征检测器和深度估计器是独立运行的单独组件。特征检测器通常在角点和深度不连续处触发,而这正是深度估计器面临困难的地方。其次,学习最佳的度量深度估计器通常需要使用地面真实深度进行强监督,这取决于数据域。例如,对于手机记录的行人图像,很少有测量深度可用。

我们提出了Metric Keypoints(MicKey),这是一个解决这两个问题的特征检测流程。首先,MicKey在相机空间中回归关键点位置,这使我们能够通过描述符匹配建立度量对应关系。通过度量对应关系,我们可以恢复度量相对姿态。其次,通过使用可微的姿态优化对MicKey进行端到端训练,我们只需要图像对及其相对姿态的地面真值作为监督,而不需要深度测量。MicKey隐式地学习了关键点的正确深度,仅针对实际找到且准确的特征区域。我们的训练过程对于具有未知视觉重叠的图像对是健壮的,因此通常不需要通过结构运动重建等方式获得的图像重叠等信息。这种弱监督使MicKey非常易于使用和吸引人,因为在新领域上训练它不需要任何额外信息。

MicKey在无地图重定位基准测试中排名前列,超过了非常近期的最新方法。MicKey提供可靠的比例度量姿态估计,即使在通过专门针对稀疏特征匹配的深度预测实现的极端视角变化下也是如此。

下面一起来阅读一下这项工作~

标题:Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

作者:Axel Barroso-Laguna, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann

机构:Niantic、牛津大学

原文链接:https://arxiv.org/abs/2404.06337

代码链接:https://github.com/nianticlabs/mickey

给定两幅图像,我们可以通过建立图像之间的对应关系来估计它们之间的相对相机姿态。通常,这些对应关系是2D到2D的,我们估计的姿态仅定义到尺度。一些旨在实现即时增强现实的应用需要尺度度量的姿态估计,因此它们依赖外部深度估计器来恢复尺度。我们提出了MicKey,一个能够在3D相机空间中预测度量对应关系的关键点匹配流程。通过学习在图像之间匹配3D坐标,我们能够推断出度量相对姿态而无需深度测量。深度测量也不需要用于训练,也不需要场景重建或图像重叠信息。MicKey仅通过图像对和它们的相对姿态进行监督。MicKey在无地图重定位基准上实现了最先进的性能,同时比竞争方法需要更少的监督。

MicKey是一个神经网络,它从 2D 输入图像中预测相机空间中的 3D 度量关键点坐标。给定两个图像,MicKey 通过描述符匹配建立 3D-3D 对应关系,然后应用 Kabsch求解器来恢复度量相对姿态。

如何在特征匹配中解决尺度模糊问题?

MicKey生成的对应关系、分数和深度图示例。即使在大规模变更或宽基线的情况下,MicKey也能找到有效的对应关系。请注意,由于我们的特征编码器,深度图的分辨率比输入图像小14倍。我们遵循DPT中使用的深度图的可视化,其中更亮意味着更近。

如何在特征匹配中解决尺度模糊问题?

1)一个神经网络MicKey,它从单个图像中预测度量的三维关键点及其描述符,允许在图像对之间进行度量相对姿态估计。

2)一种端到端的训练策略,只需要相对姿态监督,因此在训练过程中不需要深度测量或图像对重叠的知识。

训练流程。MicKey 在相机空间中预测关键点的 3D 坐标。网络还预测关键点选择概率(关键点分布)和指导匹配概率的描述符(匹配分布)。这两种分布的组合产生了在 PI↔I′ 中两个关键点成为对应的概率,我们优化网络以使正确的对应更有可能发生。在可微分的 RANSAC 循环中,我们生成多个相对姿态假设并计算它们相对于地面真实变换的损失 ˆh。我们通过 REINFORCE 生成梯度来训练对应概率 PI↔I′。由于我们的姿态求解器和损失函数是可微分的,反向传播还提供了直接信号来训练 3D 关键点坐标。

如何在特征匹配中解决尺度模糊问题?

MicKey 架构。MicKey 使用一个特征提取器,将图像分成多个补丁。对于每个补丁,MicKey 计算一个二维偏移、一个关键点置信度、一个深度值和一个描述向量。3D 关键点坐标通过补丁的绝对位置、其二维偏移和深度值得到。

如何在特征匹配中解决尺度模糊问题?

无地图数据集包含460、65和130个场景,用于训练、验证和测试。每个训练场景由场景的两个不同扫描组成,其中绝对姿势是可用的。在验证集和测试集中,数据仅限于参考图像和一系列查询图像。测试地面实况不可用,因此所有结果都通过无地图网站进行评估。我们将MicKey与不同的特征匹配管线和相对姿态回归器(RPR)进行比较。所有匹配算法均与DPT配对,用于恢复度量尺度。此外,我们提供了MicKey的两个版本,一个依赖于重叠得分并在训练期间使用整个批处理,另一个遵循我们的课程学习策略。对于MicKey w/ Overlap,我们使用中提出的相同重叠范围(40%-80%)。在无地图测试集中的评估如表1所示。基准测试测量了方法在AR应用中的能力,而不是集中在相对姿态错误上,它用图像平面的重投影误差指标(VCRE)量化了这些算法的质量,声称这与用户体验更相关。具体而言,基准测试着眼于曲线下面积(AUC)和精度值(Prec.)。AUC考虑了网络的置信度,因此还评估了方法决定是否应该信任这些估计的能力。精度度量了低于阈值(90像素)的估计百分比。我们观察到MicKey的两个变体在VCRE结果方面均表现出色,无论是在AUC还是精度方面。我们看到从训练MicKey中也获得了重叠得分监督的少量好处,并声称如果此类数据不可用,则我们简单的课程学习方法会获得最佳性能。此外,我们注意到,训练没有重叠得分的简单RPR方法(RPR w/o Overlap)会显著降低性能。

如何在特征匹配中解决尺度模糊问题?

在ScanNet测试集中的评估如表2所示。我们使用与无地图基准测试相同的标准,并在图像对角线的10%下评估VCRE姿态。与无地图相反,ScanNet测试对确保输入图像重叠的图像对进行了配对,并且结果表明在这些条件下所有方法都表现良好。与之前的实验类似,我们观察到MicKey在训练过程中不会从使用重叠得分中获得太多好处。因此,结果表明仅使用姿势监督训练MicKey可以获得与完全监督方法相当的结果,证明了最先进的度量相对姿态估计器可以通过相对姿势的少量监督进行训练。

如何在特征匹配中解决尺度模糊问题?

表3中的深度评估显示,当与我们的深度图配对时,最先进的匹配器表现出最佳性能。即使其他深度方法可以在无地图数据上进行训练,但目前尚不清楚标准光度损失在跨扫描时的工作原理,其中图像可能具有较大的基线,并且此类方法是否会为度量姿态估计任务生成更好的深度图。

如何在特征匹配中解决尺度模糊问题?

限制

如表1和表2所示,MicKey在估计适用于AR应用的良好姿势方面表现出色。对于非常精细的阈值,其他方法可能会获得更准确的姿态估计,即它们的平移和旋转误差更小。未来的工作可以研究使高分辨率特征图成为可能的骨干架构,而不会损害我们当前特征编码器的表现力。

结论

我们提出了MicKey,一种使2D图像匹配于3D相机空间的神经网络。我们的评估显示,MicKey在仅有弱训练监督的无地图重新定位基准上排名首位,并且在ScanNet中获得了比其他最先进方法更好或可比的结果,该方法是通过完全监督训练得到的。由于我们的端到端训练,我们展示了MicKey可以计算超出低级模式匹配的对应关系。此外,我们在训练期间交织关键点和深度估计表明我们的深度图是针对特征匹配任务量身定制的,并且排名靠前的匹配器在我们的深度图下表现更好。我们的实验证明了我们可以在没有强有力监督的情况下训练最先进的关键点和深度回归器。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。