天天看點

如何在特征比對中解決尺度模糊問題?

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

無論您喜歡英寸還是厘米,我們用比例-度量機關來測量和了解世界。不幸的是,當我們将世界投射到圖像平面時,比例-度量的品質就會丢失。尺度模糊是使計算機視覺及其上的應用變得困難的一個方面。想象一下增強現實問題,兩個人通過手機觀看同一場景。假設我們想要插入按比例縮放的虛拟内容,例如虛拟人物,到兩個視圖中。為了以一種可信的方式進行這樣的操作,我們需要恢複兩個相機之間的相對姿态,而且需要按比例縮放。

在計算機視覺中,估計兩幅圖像之間的相對姿态是一個長期存在的問題。基于特征比對的解決方案在諸如寬基線比對或季節變化等逆境下仍能提供出色的品質。然而,它們的幾何推理僅限于二維平面,是以相機之間的距離仍然未知。

在某些情況下,我們可以借助專用硬體來恢複場景比例。現代手機配備了IMU傳感器,但需要使用者移動。一些手機配備了測量深度的雷射雷達傳感器,但這些傳感器在範圍上受限,并且僅限于極少數高端裝置。

最近被正式提出的"無地圖重定位"提供了兩幅圖像和内參,但沒有更進一步的測量。到目前為止,恢複度量相對姿态的最佳解決方案是将二維特征比對與單獨的深度估計網絡相結合,以将對應關系提升到三次元量空間。然而,存在兩個問題。首先,特征檢測器和深度估計器是獨立運作的單獨元件。特征檢測器通常在角點和深度不連續處觸發,而這正是深度估計器面臨困難的地方。其次,學習最佳的度量深度估計器通常需要使用地面真實深度進行強監督,這取決于資料域。例如,對于手機記錄的行人圖像,很少有測量深度可用。

我們提出了Metric Keypoints(MicKey),這是一個解決這兩個問題的特征檢測流程。首先,MicKey在相機空間中回歸關鍵點位置,這使我們能夠通過描述符比對建立度量對應關系。通過度量對應關系,我們可以恢複度量相對姿态。其次,通過使用可微的姿态優化對MicKey進行端到端訓練,我們隻需要圖像對及其相對姿态的地面真值作為監督,而不需要深度測量。MicKey隐式地學習了關鍵點的正确深度,僅針對實際找到且準确的特征區域。我們的訓練過程對于具有未知視覺重疊的圖像對是健壯的,是以通常不需要通過結構運動重建等方式獲得的圖像重疊等資訊。這種弱監督使MicKey非常易于使用和吸引人,因為在新領域上訓練它不需要任何額外資訊。

MicKey在無地圖重定位基準測試中排名前列,超過了非常近期的最新方法。MicKey提供可靠的比例度量姿态估計,即使在通過專門針對稀疏特征比對的深度預測實作的極端視角變化下也是如此。

下面一起來閱讀一下這項工作~

标題:Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

作者:Axel Barroso-Laguna, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann

機構:Niantic、牛津大學

原文連結:https://arxiv.org/abs/2404.06337

代碼連結:https://github.com/nianticlabs/mickey

給定兩幅圖像,我們可以通過建立圖像之間的對應關系來估計它們之間的相對相機姿态。通常,這些對應關系是2D到2D的,我們估計的姿态僅定義到尺度。一些旨在實作即時增強現實的應用需要尺度度量的姿态估計,是以它們依賴外部深度估計器來恢複尺度。我們提出了MicKey,一個能夠在3D相機空間中預測度量對應關系的關鍵點比對流程。通過學習在圖像之間比對3D坐标,我們能夠推斷出度量相對姿态而無需深度測量。深度測量也不需要用于訓練,也不需要場景重建或圖像重疊資訊。MicKey僅通過圖像對和它們的相對姿态進行監督。MicKey在無地圖重定位基準上實作了最先進的性能,同時比競争方法需要更少的監督。

MicKey是一個神經網絡,它從 2D 輸入圖像中預測相機空間中的 3D 度量關鍵點坐标。給定兩個圖像,MicKey 通過描述符比對建立 3D-3D 對應關系,然後應用 Kabsch求解器來恢複度量相對姿态。

如何在特征比對中解決尺度模糊問題?

MicKey生成的對應關系、分數和深度圖示例。即使在大規模變更或寬基線的情況下,MicKey也能找到有效的對應關系。請注意,由于我們的特征編碼器,深度圖的分辨率比輸入圖像小14倍。我們遵循DPT中使用的深度圖的可視化,其中更亮意味着更近。

如何在特征比對中解決尺度模糊問題?

1)一個神經網絡MicKey,它從單個圖像中預測度量的三維關鍵點及其描述符,允許在圖像對之間進行度量相對姿态估計。

2)一種端到端的訓練政策,隻需要相對姿态監督,是以在訓練過程中不需要深度測量或圖像對重疊的知識。

訓練流程。MicKey 在相機空間中預測關鍵點的 3D 坐标。網絡還預測關鍵點選擇機率(關鍵點分布)和指導比對機率的描述符(比對分布)。這兩種分布的組合産生了在 PI↔I′ 中兩個關鍵點成為對應的機率,我們優化網絡以使正确的對應更有可能發生。在可微分的 RANSAC 循環中,我們生成多個相對姿态假設并計算它們相對于地面真實變換的損失 ˆh。我們通過 REINFORCE 生成梯度來訓練對應機率 PI↔I′。由于我們的姿态求解器和損失函數是可微分的,反向傳播還提供了直接信号來訓練 3D 關鍵點坐标。

如何在特征比對中解決尺度模糊問題?

MicKey 架構。MicKey 使用一個特征提取器,将圖像分成多個更新檔。對于每個更新檔,MicKey 計算一個二維偏移、一個關鍵點置信度、一個深度值和一個描述向量。3D 關鍵點坐标通過更新檔的絕對位置、其二維偏移和深度值得到。

如何在特征比對中解決尺度模糊問題?

無地圖資料集包含460、65和130個場景,用于訓練、驗證和測試。每個訓練場景由場景的兩個不同掃描組成,其中絕對姿勢是可用的。在驗證集和測試集中,資料僅限于參考圖像和一系列查詢圖像。測試地面實況不可用,是以所有結果都通過無地圖網站進行評估。我們将MicKey與不同的特征比對管線和相對姿态回歸器(RPR)進行比較。所有比對算法均與DPT配對,用于恢複度量尺度。此外,我們提供了MicKey的兩個版本,一個依賴于重疊得分并在訓練期間使用整個批處理,另一個遵循我們的課程學習政策。對于MicKey w/ Overlap,我們使用中提出的相同重疊範圍(40%-80%)。在無地圖測試集中的評估如表1所示。基準測試測量了方法在AR應用中的能力,而不是集中在相對姿态錯誤上,它用圖像平面的重投影誤差名額(VCRE)量化了這些算法的品質,聲稱這與使用者體驗更相關。具體而言,基準測試着眼于曲線下面積(AUC)和精度值(Prec.)。AUC考慮了網絡的置信度,是以還評估了方法決定是否應該信任這些估計的能力。精度度量了低于門檻值(90像素)的估計百分比。我們觀察到MicKey的兩個變體在VCRE結果方面均表現出色,無論是在AUC還是精度方面。我們看到從訓練MicKey中也獲得了重疊得分監督的少量好處,并聲稱如果此類資料不可用,則我們簡單的課程學習方法會獲得最佳性能。此外,我們注意到,訓練沒有重疊得分的簡單RPR方法(RPR w/o Overlap)會顯著降低性能。

如何在特征比對中解決尺度模糊問題?

在ScanNet測試集中的評估如表2所示。我們使用與無地圖基準測試相同的标準,并在圖像對角線的10%下評估VCRE姿态。與無地圖相反,ScanNet測試對確定輸入圖像重疊的圖像對進行了配對,并且結果表明在這些條件下所有方法都表現良好。與之前的實驗類似,我們觀察到MicKey在訓練過程中不會從使用重疊得分中獲得太多好處。是以,結果表明僅使用姿勢監督訓練MicKey可以獲得與完全監督方法相當的結果,證明了最先進的度量相對姿态估計器可以通過相對姿勢的少量監督進行訓練。

如何在特征比對中解決尺度模糊問題?

表3中的深度評估顯示,當與我們的深度圖配對時,最先進的比對器表現出最佳性能。即使其他深度方法可以在無地圖資料上進行訓練,但目前尚不清楚标準光度損失在跨掃描時的工作原理,其中圖像可能具有較大的基線,并且此類方法是否會為度量姿态估計任務生成更好的深度圖。

如何在特征比對中解決尺度模糊問題?

限制

如表1和表2所示,MicKey在估計适用于AR應用的良好姿勢方面表現出色。對于非常精細的門檻值,其他方法可能會獲得更準确的姿态估計,即它們的平移和旋轉誤差更小。未來的工作可以研究使高分辨率特征圖成為可能的骨幹架構,而不會損害我們目前特征編碼器的表現力。

結論

我們提出了MicKey,一種使2D圖像比對于3D相機空間的神經網絡。我們的評估顯示,MicKey在僅有弱訓練監督的無地圖重新定位基準上排名首位,并且在ScanNet中獲得了比其他最先進方法更好或可比的結果,該方法是通過完全監督訓練得到的。由于我們的端到端訓練,我們展示了MicKey可以計算超出低級模式比對的對應關系。此外,我們在訓練期間交織關鍵點和深度估計表明我們的深度圖是針對特征比對任務量身定制的,并且排名靠前的比對器在我們的深度圖下表現更好。我們的實驗證明了我們可以在沒有強有力監督的情況下訓練最先進的關鍵點和深度回歸器。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。