天天看點

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

傳統的視覺位置識别(VPR)主要依賴于圖像對圖像查詢,使用附帶地理資訊的圖像資料庫作為地圖。然後,通過使用實時捕獲的圖像來查詢圖像資料庫來完成地點識别。然而,圖像資料庫本身對外觀變化(例如,視角、照明、季節)的精确度和穩健性受到影響。相反,雷射雷達地圖對于天氣和照明變化更加穩健。這激發了對圖像到雷射雷達地點識别的興趣,即在雷射雷達地圖中确定圖像的拍攝位置。然而,由于城市尺度點雲需要大量的存儲消耗,通常采用壓縮來有效存儲城市尺度雷射雷達地圖。壓縮加劇了模态間隙和圖像到雷射雷達地點識别的難度。

作者提出了VOLoc,一個新穎的架構,利用幾何相似性來解決圖像到雷射雷達位置識别的挑戰,而無需解壓雷射雷達地圖。關鍵思想是利用幾何資訊作為中間表示來消除模态間隙。一方面,利用幾何保持壓縮器(GPC)來壓縮分段的雷射雷達地圖,這些地圖用作位置資料庫。值得注意的是,GPC通過聚類和下采樣壓縮點雲,以保留幾何結構并確定壓縮是可逆的。可逆壓縮對于下遊精确的六自由度姿态估計至關重要。然後,提出了基于注意力的聚合子產品,将壓縮的子地圖轉換為全局描述符,以內建鄰域資訊以便查詢。線上階段,通過線上幾何恢複子產品(GRM)重建相機周圍的局部幾何結構,該子產品包括視覺測距子產品和點雲優化子產品。GRM努力恢複盡可能多的局部結構資訊,并将重建的點雲輸出為查詢點雲。然後,相同的GPC将QPC壓縮,并通過相同的聚合子產品彙總為查詢全局描述符。然後,傳回資料庫中與最接近的向量距離的位置索引作為地點識别結果。

下面一起來閱讀一下這項工作~

标題:VOLoc: Visual Place Recognition by Querying Compressed Lidar Map

作者:Xudong Cai, Yongcai Wang, Zhe Huang, Yu Shao, Deying Li

機構:中國人民大學

原文連結:https://arxiv.org/abs/2402.15961

代碼連結:https://github.com/Master-cai/VOLoc

城市尺度的雷射雷達地圖的可用性使得利用移動攝像頭進行城市尺度的地點識别成為可能。然而,城市尺度的雷射雷達地圖通常需要進行壓縮以提高存儲效率,這增加了在壓縮的雷射雷達地圖中進行直接視覺地點識别的難度。本文提出了VOLoc,一種準确高效的視覺地點識别方法,利用幾何相似性直接通過實時捕獲的圖像序列查詢壓縮的雷射雷達地圖。在離線階段,VOLoc使用幾何保持壓縮器(GPC)壓縮雷射雷達地圖,其中壓縮是可逆的,這是下遊6DoF姿态估計的一個關鍵要求。線上階段,VOLoc提出了一個線上幾何恢複子產品(GRM),由線上視覺測距(VO)和點雲優化子產品組成,以便線上恢複相機周圍的局部場景結構,建構查詢點雲(QPC)。然後,QPC通過相同的GPC進行壓縮,并通過基于注意力的聚合子產品聚合成全局描述符,以在向量空間中查詢壓縮的雷射雷達地圖。還提出了一種轉移學習機制,以提高聚合網絡的準确性和通用性。廣泛的評估表明,VOLoc提供了比雷射雷達到雷射雷達位置識别甚至更好的定位準确性,為利用低端移動攝像頭對壓縮的雷射雷達地圖進行設定了新記錄。

具體應用的描述,在壓縮的雷達地圖中識别圖像的位置。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

(1)探索幾何相似性以實作圖像到壓縮雷射雷達位置識别。

(2)利用幾何保持壓縮器(GPC)建構資料庫,并提出幾何恢複子產品(GRM)從圖像序列中恢複局部幾何資訊。

(3)提出一種轉移學習方案來訓練聚合子產品,大大提高了準确性。

(4)建構基于KITTI的視覺到雷射雷達定位資料集,用于評估所提出的方法和社會應用。

A. 問題描述

考慮一個城市規模的點雲地圖M,該地圖被分割成相等大小的序列。為了存儲效率而壓縮分段地圖,并設定了一個資料庫,即 DB = {c1,c2,...,cN},其中 ci 是第 i 個壓縮序列。一個配有單目相機的終端使用其捕獲的圖像查詢資料庫,以找出終端可能位于的位置。

B. 方法概述

雷射雷達子地圖首先通過幾何保持壓縮器進行處理,然後通過特征聚合子產品處理,轉換成全局描述符 Dd = {d1,d2,...,dN}。查詢圖像經過幾何恢複子產品和相同的 GPC 處理,生成壓縮的查詢點雲,然後使用相同的特征聚合子產品将其轉換為查詢全局描述符 dq。然後通過在 Dd 中檢索與 dq 最相似的描述符來進行位置識别。綜合損失和遷移學習方案被應用于訓練聚合子產品。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

定位性能和存儲空間使用情況。表I報告了Recall@1、Recall@5和Recall@1%、平均查詢子地圖大小以及總地圖大小。主要與兩類方法進行比較:Lidar到未壓縮地圖(LtoU)方法、和Lidar到壓縮地圖(LtoC)方法。LtoU方法使用雷射雷達點雲查詢未壓縮地圖。LtoC方法在壓縮地圖中檢索點雲。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

最佳模型(VOLocDSO)優于大多數基線方法,并略遜于在KITTI資料集上表現最佳的LPD-Net。其他兩個模型(VOLocV INS−Mono和VOLocORB−SLAM3)也取得了與其他基線方法相當的性能。然而,這不是一個公平的比較,因為除了Retriever [16]之外的所有方法都在未壓縮的點雲中查詢基于雷射雷達的點雲。表I顯示,該方法的查詢大小和地圖大小要比Lidar到未壓縮地圖方法小得多。與Retriever相比,VOLocDSO和VOLocV INS−Mono方法在定位性能上表現更好,查詢大小更小。是以,該方法的優勢在于直接在壓縮地圖中定位圖像,占用的額外空間很少(重構可視化點雲)。這個方法适用于存儲空間和傳輸帶寬有限的移動裝置。圖4顯示了KITTI資料集上的平均召回率@K。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

消融實驗

研究不同系統元件的影響,包括:

a)遷移學習:如表II所示,基本模型無論是否使用VO都表現不佳。通過提出的遷移學習政策,Recall@1分别提高了11.47%、7.33%和11.47%。遷移學習使模型學習更多的幾何特征,增強了所有VO方法的性能。

b)組合損失:如表II所示,組合損失增強了定位性能。這意味着使QPCs的描述符更具有區分性有助于網絡找到視覺和雷射點雲之間更好的相關性。基于DSO的方法的Recall@1已提高到91.34%,超過了LPD-Net(89.54%)。其他兩種方法也有所改善(分别為7.83%和3.97%)。

c)視覺點雲細化:ORB-SLAM3和VINS-Mono的點雲比DSO的點雲更稀疏。表II顯示,優化顯着縮小了性能差距。優化對ORB-SLAM3方法有很大提升。它的Recall@1達到了72.62%。它還将VINS-Mono方法提高了6.82%,但對于DSO方法的影響較小,因為其固有密度。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

定性結果和可視化

展示視覺點雲細化的定性結果和檢索結果:

a)視覺點雲細化:圖5顯示了視覺點雲細化的效果。它對DSO的點雲影響輕微,但對VINS-Mono和ORB-SLAM3的點雲有明顯影響。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

b)檢索結果:圖6展示了三種不同VO方法的前3個檢索結果。顯示的查詢未經過細化,檢索到的子地圖是雷射雷達子地圖。視覺點雲和雷射雷達子地圖之間的差距是明顯的,但我們的方法在大多數情況下都能工作。然而,來自不同位置的子地圖可能相似,導緻錯誤比對。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

時間消耗

測試了各部分的時間成本,如圖7所示。視覺點雲細化和特征聚合子產品的時間遠遠小于VO重新建構子地圖所需的時間,對于由DSO生成的子地圖的稠密化略微耗時,但對于由VINS-Mono和ORB-SLAM3重新建構的子地圖非常高效,并且顯着提高了定位精度。

ICRA'24開源 | 全局定位新思路:在雷射雷達地圖中查詢圖像位置!

這篇文章介紹了VOLoc,它利用幾何相似性來定位壓縮的雷射雷達地圖中的圖像。提出的GRM子產品從圖像中恢複幾何結構并對其進行優化以獲得更好的幾何品質。利用GPC對雷射雷達地圖進行壓縮,同時保持幾何一緻性。提出了一種轉移學習方案來訓練基于注意力的聚合網絡,這對網絡集中注意力于重要點至關重要。結果表明,所提出的方法在記憶體效率上表現出色,并且與雷射雷達到雷射雷達的位置識别方法相當。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀