天天看點

必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

這篇文章介紹了一種名為SPVLoc的方法,用于在室内環境中進行6D相機定位,即準确确定相機在室内環境中的位置和方向。該方法利用了簡單的語義紋理化的3D場景模型,并通過新穎的圖像比對方法将透視圖像與全景圖像、RGB圖像與語義圖像進行比對。通過在稀疏參考采樣下進行高效和可擴充的比對和檢索,該方法能夠提高定位的準确性和推理速度。與現有技術方法相比,SPVLoc方法在定位準确性和推理速度方面表現更好,并且通過包含3D模型,能夠減少估計6D姿态時的歧義。文章還探讨了未來将定位和圖像分析相結合以增強數字建築模型或在增強現實場景中應用的可能性。

下面一起來閱讀一下這項工作~

論文題目:SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments

作者:Niklas Gard等

作者機構:Fraunhofer Heinrich Hertz Institute等

論文連結:https://arxiv.org/pdf/2404.10527.pdf

本文介紹了SPVLoc,一種全球室内定位方法,能夠準确确定查詢圖像的六維(6D)相機姿态,需要最少的場景特定先驗知識和無需場景特定訓練。我們的方法采用一種新穎的比對過程,在室内環境的一組全景語義布局表示中定位透視相機的視口,該表示以RGB圖像形式給出。這些全景圖是從未紋理化的3D參考模型中渲染出來的,該模型僅包含關于房間形狀的近似結構資訊,以及門和窗戶的注釋。我們證明了一個直接的卷積網絡結構可以成功實作圖像到全景圖的比對,最終實作圖像到模型的比對。通過視口分類分數,我們對參考全景圖進行排名,并選擇最佳比對的查詢圖像。然後,估計所選全景圖與查詢圖像之間的6D相對姿态。我們的實驗表明,這種方法不僅有效地彌合了域之間的差距,而且對于以前未見過的不屬于訓練資料的場景具有很好的泛化能力。此外,與最先進的方法相比,它實作了更高的定位精度,還估計了相機姿态的更多自由度。我們将在以下網址公開我們的源代碼:https://github.com/fraunhoferhhi/spvloc。

ZinD資料準備。注釋生成3D參考模型(左),而重新采樣的位圖建立透視訓練和測試圖像(右)。

必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計

定性定位結果:從上到下-查詢,使用top-1估計姿勢渲染,使用估計視口的全景,地圖。綠色框:前1名比對成功。黃框:前2名比賽成功。紅框:失敗案例。

必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計

0.7m、1.5m全球網格和1.5m局部網格的參考位置(從左至右)。

必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計
  • 為未知室内環境引入了一種基于模型的6D相機姿态估計系統,無需進行特定場景的訓練。
  • 提出了一種新穎的透視到全景圖像比對概念,即使在寬基線相機下也具有很高的檢索準确性。
  • 與最先進的方法相比,我們的方法表現出更高的定位精度,同時估計更多的自由度。

這篇文章介紹了一種名為SPVLoc的方法,用于在室内進行2D RGB圖像的6D定位。該方法的基本原理是利用語義無紋理的3D場景模型,通過跨領域圖像到全景圖像比對來估計圖像的視口,然後通過相對6D姿态回歸來确定圖像相對于最佳比對的參考全景圖的姿态。文章主要包括以下幾個步驟和關鍵點:

  • 語義全景視口比對(Semantic Panoramic Viewport Matching):将室内定位問題重新定義為跨領域圖像到全景圖像比對問題。通過建立語義全景參考渲染,并利用透視錄影機的視角來确定全景圖中視口的位置。視口的确定涉及計算視口蒙版和邊界框,并通過網絡預測。
  • 特征相關的姿态回歸(Feature-Correlation-based Pose Regression):通過對視口資訊進行特征相關,編碼了圖像在全景圖中的視口資訊,并使用這些資訊來估計相機的相對姿态偏移。這一步驟的目的是确定圖像相對于全景圖的精确位置。
  • 優化(Optimization):在訓練過程中,使用多任務學習來平衡不同損失函數的權重,以提高模型的準确性和穩健性。優化過程包括對姿态偏移和視口的預測進行損失計算和權重調整。
  • 推理(Inference):在推理階段,通過在樓層平面上疊加的固定2D網格确定全景位置,并選擇具有最高分類分數的參考位置。然後根據Pose頭的結果确定絕對姿态,并通過渲染新的參考全景圖來提高姿态估計的精度。
必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計
必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計
必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計

本文主要介紹了一種用于室内環境的6D相機定位的方法,通過結合全景圖像和語義3D模型,實作了在未知場景中的高精度定位。

  • 資料集:

使用了兩個公開資料集:Structured3D (S3D) 和 Zillow Indoor (ZInD)。

S3D包含3500個近乎照片般逼真的室内環境模型,每個模型都帶有地面真實的3D結構資訊,包括21835個全景圖像。

ZInD包含67448個全景圖像,拍攝于1575個未裝修的住宅,所有圖像都在全球範圍内對齊并注冊到一個樓層平面圖上。

  • 資料預處理:

在訓練之前,将所有資料轉換為統一的格式。

  • 訓練細節:

使用變焦視角的模型進行訓練,其中随機采樣視角在45到135度之間。

對每個查詢一緻地在±r1(xy方向)和±r2(向上)的半徑内渲染s個随機位置的全景圖像。

使用一個随機負例在不同房間生成,以增強網絡對細微房間差異的識别能力。

使用随機偏航和±10°的随機俯仰和滾動角度對圖像進行采樣。

批處理大小設定為40,包括40個查詢圖像和200個全景圖像,并在單個NVIDIA A100 GPU上進行訓練。

在損失計算過程中,忽略語義類别少于三個的查詢圖像。

訓練大約42000步,初始學習率為2.5×10^-4,在訓練過程中減半兩次。

  • 測試細節:

在測試期間,對全景圖像進行1.2×1.2米的網格采樣。

為了評估2D定位的準确性,報告了3D旋轉和平移誤差。

  • 與最新技術的比較:

與LASER方法進行比較,表現出更高的定位準确性和召回率。

LASER方法隻估計兩個位置和一個旋轉自由度,而SPVLoc方法估計完整的6D姿态。

  • 消融研究:移除特定元件會降低網絡性能,如透視監督和視圖分段任務頭。

移除來自不同房間的負樣本會顯著降低定位準确性。

将圖像編碼器EfficientNet-S替換為更小的ResNet-18會導緻性能下降。

将全景編碼器的所有卷積層替換為Equiconv不會帶來性能提升。

添加額外的全景圖像輸入模态會略微提高結果。

  • 性能研究:

使用本地網格代替全局網格可降低完全錯過房間的風險,并在10cm召回率上提高性能。

使用已知相機焦距訓練的網絡在比對圖像方面表現略好,但在測試不同焦距的圖像時失去精度。

網絡能夠處理不同俯仰和滾轉角度的測試圖像,表現出魯棒的估計能力。

  • 限制:

在大型重複房間布局的空間中,方法的有效性可能受到語義參考模型細節的限制。

必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計
必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計
必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計
必看開源方案!SPVLoc:從全景到透視,未知環境下的6D姿态估計

本文介紹了一種用于室内場景的場景無關基于模型的6D定位方法,涉及一種新穎的多模态圖像比對方法(全景圖像到透視圖像,RGB到語義)。比對和檢索在稀疏參考采樣下高效且可擴充。定位準确性和推理速度優于現有技術方法,而3D模型的包含減少了估計6D姿态的歧義。未來的工作涉及将定位和圖像分析相結合,以增強數字建築模型或探索在增強現實場景中的應用。

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。