CVPR'24开源 | 视觉重定位最新SOTA！新场景仅需几分钟微调！

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

如今，神经网络几乎已经征服了计算机视觉的所有领域，但仍有至少一个任务它们难以应对：视觉重新定位。什么是视觉重新定位？给定一组映射图像及其在共同坐标系中表示的姿势，构建场景表示。随后，给定一个查询图像，估计其相对于场景的姿势，即位置和方向。成功的视觉重新定位方法依赖于预测图像到场景的对应关系，可以通过匹配或直接回归，然后使用传统和稳健的算法如 PnP 和 RANSAC 来解决姿势问题。采用不同的视角，基于姿势回归的方法试图执行视觉重新定位，而不依赖于传统的姿势求解，而是使用单个前馈神经网络从单个图像中推断姿势。映射数据被视为训练集，其中相机外参数充当监督。通常，姿势回归方法有两种类型，但它们在准确性上与基于对应关系的方法相比仍然存在困难。

绝对姿势回归 (APR) 方法涉及为每个单独的场景训练专用的姿势回归器，从而能够预测相机姿势到该特定场景。尽管场景坐标空间可以隐式编码在神经网络的权重中，但绝对姿势回归器的姿势估计准确性较低，主要是由于每个场景可用的训练数据通常有限，且难以推广到未见视图。相对姿势回归是姿势回归方法的第二种类型。回归器被训练以预测两个图像之间的相对姿势。在典型的推理场景中，回归器应用于由未见查询和映射集中的图像组成的一对图像；然后，预测的相对姿势可以与映射图像的已知姿势相结合，以获得绝对查询姿势。这些方法可以在许多场景不可知的数据上进行训练，但它们的准确性仍然有限：两个图像之间的度量姿势只能近似预测。

受到这些限制的启发，这篇文章**提出了一种新的绝对姿势回归方法：地图相对姿势回归 (marepo)**。将场景特定表示（编码每个目标场景的比例度量参考空间）与通用的、场景不可知的绝对姿势回归网络相结合。特别地，利用一个快速训练的场景坐标回归模型作为场景表示，并且提前训练一个姿势回归网络，该网络学习了场景坐标预测与相应相机姿势之间的关系。这种通用关系能够在数百个不同的场景上训练姿势回归器，有效地解决了绝对姿势回归模型受限于训练数据有限的问题。另一方面，由于在定位时的姿势回归器是以场景特定地图表示为条件的，因此它能够准确预测比例度量姿势，而不像相对姿势回归器那样。

下面一起来阅读一下这项工作~

标题：Map-Relative Pose Regression for Visual Re-Localization

作者：Shuai Chen, Tommaso Cavallari, Victor Adrian Prisacariu, Eric Brachmann

机构：牛津大学、Niantic实验室

原文链接：https://arxiv.org/abs/2404.09884

代码链接：https://github.com/nianticlabs/marepo

官方主页：https://nianticlabs.github.io/marepo/

3D视觉Daily

，赞26

姿态回归网络预测查询图像相对于已知环境的相机姿态。在这一类方法中，绝对姿态回归（APR）最近表现出了很有前景的精度，位置误差在几厘米范围内。APR网络隐式地在其权重中编码了场景几何。为了达到高精度，它们需要大量的训练数据，而实际上，这只能通过数天的新视图合成过程来创建。这个过程必须一遍又一遍地重复对每个新场景。我们提出了一种新的姿态回归方法，地图相对姿态回归（marepo），以一种与场景无关的方式满足了姿态回归网络的数据需求。我们将姿态回归器与场景特定的地图表示相结合，使其姿态预测相对于场景地图。这使我们能够在数百个场景中训练姿态回归器，以学习场景特定地图表示与相机姿态之间的普遍关系。我们的地图相对姿态回归器可以立即应用于新的地图表示，或者经过几分钟的微调以获得最高精度。我们的方法在两个公共数据集（室内和室外）上远远优于以前的姿态回归方法。

相机位姿估计性能与建图时间的关系。图中显示了几种姿态回归重定位方法在7 - Scenes数据集上的平移误差中值以及(与圆圈尺寸成正比)在目标场景上训练每个重定位器所需的时间。marepo由于在一个精确的、地图相关的姿态回归框架中集成了场景特定的几何地图先验，在这两个指标上都取得了优异的性能。

（1）提出了 marepo，一种新颖的绝对姿势回归方法，将通用的场景不可知地图相对姿势回归方法与场景特定的度量表示相结合。展示了网络可以对以前未见过的图像进行端到端推断，并且由于由场景特定组件编码的强大且明确的三维几何知识，它可以直接估算准确的绝对度量姿势。

（2）介绍了一种基于Transformer的网络架构，该架构可以处理查询图像中2D位置与先前映射场景的参考系统内对应的3D坐标之间的密集对应关系，并估计捕获查询图像的相机的姿势。进一步展示了如何通过在查询图像中应用动态位置编码来显着提高该方法的性能，通过在变压器输入中编码内在相机参数。

marepo网络示意图。场景特定的几何预测模块GS处理查询图像以预测场景坐标图( H )。然后，使用场景无关的地图相对位姿回归器M直接回归相机位姿。网络的训练和推断完全依赖于RGB图像I和相机内参数K，而不需要深度信息或预先构建的点云。

地图相对位姿回归器M将预测的场景坐标地图张量和对应的相机内参作为输入，将具有动态位置编码的信息嵌入到高维特征中，最终估计出相机位姿P。

首先在Microsoft 7-Scenes数据集上评估，这是一个室内重定位数据集，每个场景提供多达7000张映射图像。每个场景覆盖的区域有限（在1m³和18m³之间）; 尽管如此，先前的APR方法需要数十小时甚至数天来训练模型以在其中进行重定位。这在实际情况下是不理想的，因为场景的外观可能在那段时间内发生了变化，从而使训练过的APR过时。相反，marepo只需要几分钟的训练时间（≈ 5）来为每个新场景生成专门针对目标环境调整的几何预测网络GS。在表1中将marepo与先前的姿势回归方法进行比较，表明marepo不仅是一种部分与场景无关的方法，而且享有所有基于APR的方法中最快的映射时间，并且在平均性能方面获得了约50％的改进（以中值误差为指标）。

进一步在Wayspots数据集上评估，该数据集展示了即使是当前的基于几何的方法也难以处理的具有挑战性的户外场景。该数据集包含10个不同区域的扫描，由视觉惯性测距系统提供相关地面真实姿态。在表2中，展示了提出的marepo（以及每个场景的映射帧进行微调的marepoS模型）的性能与两种基于APR的方法进行比较; 还包括与两种场景坐标回归方法的比较：DSAC*和Wayspots的当前最新技术ACE。marepo明显优于先前的基于APR的方法-例如PoseNet和MS-Transformers，它们平均需要数小时的训练时间，并且与基于几何的方法相比表现良好。首次展示，一种依赖几何先验的端到端图像到姿态回归方法可以达到与需要部署（更慢）稳健解算器来从一组可能有噪声的2D-3D对应中估计相机姿态的方法相似水平的性能。更具体地说，marepo仅需要五分钟来训练一个网络，该网络编码了GS场景特定坐标回归器中感兴趣位置的位置，并且（可选地）大约需要一分钟来微调地图相对回归器M（因为Wayspot扫描的帧明显少于上述7-Scenes场景）。在推理时，marepo（或其经过微调的变体）可以以每秒≈ 56帧的速度执行推理，使其不仅准确，而且与其他方法相比极其高效。

marepo是一种在姿势回归中结合了场景不可知姿势回归网络的优势和由快速训练的特定场景度量表示提供的强几何先验的新方法。该方法解决了以往APR技术的局限性，既在各种场景中预测准确的尺度度量姿势方面具有可扩展性又具有精度。作者展示了marepo相对于现有APR方法在两个数据集上的卓越准确性以及其快速适应新场景的能力。此外，展示了如何将基于transformer的网络架构与动态位置编码相结合，以确保对不同摄像机参数的稳健性，从而将marepo确立为基于回归的视觉重定位的多功能高效解决方案。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

CVPR'24开源 | 视觉重定位最新SOTA！新场景仅需几分钟微调！

继续阅读

劳斯莱斯新款库里南实车曝光，外观微调，以进口方式引入国内

沪上24小时开放公园微调研：夜公园如何安全又友好？

比亚迪又要从技术鱼池里面摸鱼了，即将普及80%～100%尾段充电技术，这尾端充电速度如果普及下来，又解决一大痛点场景。刀

更多场景落地低空经济“高飞”

大模型+教育见成效，讯飞星火入选教育部“人工智能+高等教育”首批典型应用场景案例

如何精准切合应用场景提升电动重卡产品力？

立足场景，不止有光：锐捷网络发布极简以太全光3.X

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

精准识别用户需求，联动打造个性化智慧场景——博联60G强电毫米波雷达产品评测

一部好的电影会直击心灵，显然《白气球》就做到了，而这部伊朗导演的电影，是如何通过简约的叙事结构，以及平缓的叙事节奏，来呈

主线科技获数亿元融资，加速建设全场景自动驾驶货运网络

兼容全场景，超大容量电池机型大盘点~旅行告别充电宝

王者荣耀：辅助英雄微调出炉，团战格局生变！

5月7日全新iPad更新预测●边框更窄，屏幕加大●屏幕升级iPhone同款OLED●屏幕玻璃新增类纸磨砂材质●相机改到了

《庆余年》第一季经典场景回顾：重现江湖风云

全红婵面对207C动作的失误，是一个备受瞩目的时刻。在她本应轻松驾驭的拿手动作竟被要求故意出错，这场景令人心生不解。郭晶