CVPR'24開源 | 視覺重定位最新SOTA！新場景僅需幾分鐘微調！

來源：3D視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

如今，神經網絡幾乎已經征服了計算機視覺的所有領域，但仍有至少一個任務它們難以應對：視覺重新定位。什麼是視覺重新定位？給定一組映射圖像及其在共同坐标系中表示的姿勢，建構場景表示。随後，給定一個查詢圖像，估計其相對于場景的姿勢，即位置和方向。成功的視覺重新定位方法依賴于預測圖像到場景的對應關系，可以通過比對或直接回歸，然後使用傳統和穩健的算法如 PnP 和 RANSAC 來解決姿勢問題。采用不同的視角，基于姿勢回歸的方法試圖執行視覺重新定位，而不依賴于傳統的姿勢求解，而是使用單個前饋神經網絡從單個圖像中推斷姿勢。映射資料被視為訓練集，其中相機外參數充當監督。通常，姿勢回歸方法有兩種類型，但它們在準确性上與基于對應關系的方法相比仍然存在困難。

絕對姿勢回歸 (APR) 方法涉及為每個單獨的場景訓練專用的姿勢回歸器，進而能夠預測相機姿勢到該特定場景。盡管場景坐标空間可以隐式編碼在神經網絡的權重中，但絕對姿勢回歸器的姿勢估計準确性較低，主要是由于每個場景可用的訓練資料通常有限，且難以推廣到未見視圖。相對姿勢回歸是姿勢回歸方法的第二種類型。回歸器被訓練以預測兩個圖像之間的相對姿勢。在典型的推理場景中，回歸器應用于由未見查詢和映射集中的圖像組成的一對圖像；然後，預測的相對姿勢可以與映射圖像的已知姿勢相結合，以獲得絕對查詢姿勢。這些方法可以在許多場景不可知的資料上進行訓練，但它們的準确性仍然有限：兩個圖像之間的度量姿勢隻能近似預測。

受到這些限制的啟發，這篇文章**提出了一種新的絕對姿勢回歸方法：地圖相對姿勢回歸 (marepo)**。将場景特定表示（編碼每個目标場景的比例度量參考空間）與通用的、場景不可知的絕對姿勢回歸網絡相結合。特别地，利用一個快速訓練的場景坐标回歸模型作為場景表示，并且提前訓練一個姿勢回歸網絡，該網絡學習了場景坐标預測與相應相機姿勢之間的關系。這種通用關系能夠在數百個不同的場景上訓練姿勢回歸器，有效地解決了絕對姿勢回歸模型受限于訓練資料有限的問題。另一方面，由于在定位時的姿勢回歸器是以場景特定地圖表示為條件的，是以它能夠準确預測比例度量姿勢，而不像相對姿勢回歸器那樣。

下面一起來閱讀一下這項工作~

标題：Map-Relative Pose Regression for Visual Re-Localization

作者：Shuai Chen, Tommaso Cavallari, Victor Adrian Prisacariu, Eric Brachmann

機構：牛津大學、Niantic實驗室

原文連結：https://arxiv.org/abs/2404.09884

代碼連結：https://github.com/nianticlabs/marepo

官方首頁：https://nianticlabs.github.io/marepo/

3D視覺Daily

，贊26

姿态回歸網絡預測查詢圖像相對于已知環境的相機姿态。在這一類方法中，絕對姿态回歸（APR）最近表現出了很有前景的精度，位置誤差在幾厘米範圍内。APR網絡隐式地在其權重中編碼了場景幾何。為了達到高精度，它們需要大量的訓練資料，而實際上，這隻能通過數天的新視圖合成過程來建立。這個過程必須一遍又一遍地重複對每個新場景。我們提出了一種新的姿态回歸方法，地圖相對姿态回歸（marepo），以一種與場景無關的方式滿足了姿态回歸網絡的資料需求。我們将姿态回歸器與場景特定的地圖表示相結合，使其姿态預測相對于場景地圖。這使我們能夠在數百個場景中訓練姿态回歸器，以學習場景特定地圖表示與相機姿态之間的普遍關系。我們的地圖相對姿态回歸器可以立即應用于新的地圖表示，或者經過幾分鐘的微調以獲得最高精度。我們的方法在兩個公共資料集（室内和室外）上遠遠優于以前的姿态回歸方法。

相機位姿估計性能與建圖時間的關系。圖中顯示了幾種姿态回歸重定位方法在7 - Scenes資料集上的平移誤差中值以及(與圓圈尺寸成正比)在目标場景上訓練每個重定位器所需的時間。marepo由于在一個精确的、地圖相關的姿态回歸架構中內建了場景特定的幾何地圖先驗，在這兩個名額上都取得了優異的性能。

（1）提出了 marepo，一種新穎的絕對姿勢回歸方法，将通用的場景不可知地圖相對姿勢回歸方法與場景特定的度量表示相結合。展示了網絡可以對以前未見過的圖像進行端到端推斷，并且由于由場景特定元件編碼的強大且明确的三維幾何知識，它可以直接估算準确的絕對度量姿勢。

（2）介紹了一種基于Transformer的網絡架構，該架構可以處理查詢圖像中2D位置與先前映射場景的參考系統内對應的3D坐标之間的密集對應關系，并估計捕獲查詢圖像的相機的姿勢。進一步展示了如何通過在查詢圖像中應用動态位置編碼來顯着提高該方法的性能，通過在變壓器輸入中編碼内在相機參數。

marepo網絡示意圖。場景特定的幾何預測子產品GS處理查詢圖像以預測場景坐标圖( H )。然後，使用場景無關的地圖相對位姿回歸器M直接回歸相機位姿。網絡的訓練和推斷完全依賴于RGB圖像I和相機内參數K，而不需要深度資訊或預先建構的點雲。

地圖相對位姿回歸器M将預測的場景坐标地圖張量和對應的相機内參作為輸入，将具有動态位置編碼的資訊嵌入到高維特征中，最終估計出相機位姿P。

首先在Microsoft 7-Scenes資料集上評估，這是一個室内重定位資料集，每個場景提供多達7000張映射圖像。每個場景覆寫的區域有限（在1m³和18m³之間）; 盡管如此，先前的APR方法需要數十小時甚至數天來訓練模型以在其中進行重定位。這在實際情況下是不理想的，因為場景的外觀可能在那段時間内發生了變化，進而使訓練過的APR過時。相反，marepo隻需要幾分鐘的訓練時間（≈ 5）來為每個新場景生成專門針對目标環境調整的幾何預測網絡GS。在表1中将marepo與先前的姿勢回歸方法進行比較，表明marepo不僅是一種部分與場景無關的方法，而且享有所有基于APR的方法中最快的映射時間，并且在平均性能方面獲得了約50％的改進（以中值誤差為名額）。

進一步在Wayspots資料集上評估，該資料集展示了即使是目前的基于幾何的方法也難以處理的具有挑戰性的戶外場景。該資料集包含10個不同區域的掃描，由視覺慣性測距系統提供相關地面真實姿态。在表2中，展示了提出的marepo（以及每個場景的映射幀進行微調的marepoS模型）的性能與兩種基于APR的方法進行比較; 還包括與兩種場景坐标回歸方法的比較：DSAC*和Wayspots的目前最新技術ACE。marepo明顯優于先前的基于APR的方法-例如PoseNet和MS-Transformers，它們平均需要數小時的訓練時間，并且與基于幾何的方法相比表現良好。首次展示，一種依賴幾何先驗的端到端圖像到姿态回歸方法可以達到與需要部署（更慢）穩健解算器來從一組可能有噪聲的2D-3D對應中估計相機姿态的方法相似水準的性能。更具體地說，marepo僅需要五分鐘來訓練一個網絡，該網絡編碼了GS場景特定坐标回歸器中感興趣位置的位置，并且（可選地）大約需要一分鐘來微調地圖相對回歸器M（因為Wayspot掃描的幀明顯少于上述7-Scenes場景）。在推理時，marepo（或其經過微調的變體）可以以每秒≈ 56幀的速度執行推理，使其不僅準确，而且與其他方法相比極其高效。

marepo是一種在姿勢回歸中結合了場景不可知姿勢回歸網絡的優勢和由快速訓練的特定場景度量表示提供的強幾何先驗的新方法。該方法解決了以往APR技術的局限性，既在各種場景中預測準确的尺度度量姿勢方面具有可擴充性又具有精度。作者展示了marepo相對于現有APR方法在兩個資料集上的卓越準确性以及其快速适應新場景的能力。此外，展示了如何将基于transformer的網絡架構與動态位置編碼相結合，以確定對不同錄影機參數的穩健性，進而将marepo确立為基于回歸的視覺重定位的多功能高效解決方案。

對更多實驗結果和文章細節感興趣的讀者，可以閱讀一下論文原文~

本文僅做學術分享，如有侵權，請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。

CVPR'24開源 | 視覺重定位最新SOTA！新場景僅需幾分鐘微調！

繼續閱讀

智慧遊、民俗遊、非遺遊……多元消費場景跨界融合激發假日經濟新動力

勞斯萊斯新款庫裡南實車曝光，外觀微調，以進口方式引入國内

滬上24小時開放公園微調研：夜公園如何安全又友好？

比亞迪又要從技術魚池裡面摸魚了，即将普及80%～100%尾段充電技術，這尾端充電速度如果普及下來，又解決一大痛點場景。刀

更多場景落地低空經濟“高飛”

大模型+教育見成效，訊飛星火入選教育部“人工智能+高等教育”首批典型應用場景案例

如何精準切合應用場景提升電動重卡産品力？

立足場景，不止有光：銳捷網絡釋出極簡以太全光3.X

58行代碼把Llama 3擴充到100萬上下文，任何微調版都适用

精準識别使用者需求，關聯打造個性化智慧場景——博聯60G強電毫米波雷達産品評測

一部好的電影會直擊心靈，顯然《白氣球》就做到了，而這部伊朗導演的電影，是如何通過簡約的叙事結構，以及平緩的叙事節奏，來呈

主線科技獲數億元融資，加速建設全場景自動駕駛貨運網絡

相容全場景，超大容量電池機型大盤點~旅行告别充電寶

王者榮耀：輔助英雄微調出爐，團戰格局生變！

5月7日全新iPad更新預測●邊框更窄，螢幕加大●螢幕更新iPhone同款OLED●螢幕玻璃新增類紙磨砂材質●相機改到了

《慶餘年》第一季經典場景回顧：重制江湖風雲