本文為《Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free》學習筆記,歡迎交流
關鍵詞: 室内定位;圖像地理定位;圖像檢索;CNN 特征點;位姿估計
一、摘要
問題:室内視覺定位的準确性和成本之間難以權衡
方法: 提出了一種基于圖像檢索的定位方法。
- 基于 CNN 的圖像檢索階段,預訓練的深度卷積神經網絡(DCNN)提取 CNN 特征,用來比較相似性,輸出比對的圖像
- 位姿估計階段。魯棒的 CNN 特征提取器,方案适用于複雜的室内且能移植到戶外。單目視覺裡程計,隻需要 RGB 圖像及位姿。使用 lightweight datum 呈現場景。
- 通過資料集進行驗證。
結果: 該方法定位精确度高,易用性好,應用前景好,資料采集算法和位姿估計與資料擴充相容。
二、結論
課題構思(如何一步步得到結論):
- 利用基于 CNN 的圖像檢索政策,将查詢圖像與資料庫圖像進行特征比對;
- 從 ORB 特征點的對應關系中估計查詢圖像的姿态。
- 首次同時使用基于 CNN 的圖像檢索與僅使用 RGB 圖像。基于圖像的定位将成為主流。資料擷取和位姿估計算法符合現有的 data expansion。從粗到精的思想将廣泛使用
未解問題:
- 使用圖像集定義空間
- 可以提高效率和魯棒性,表示更複雜和大規模的場景。
三、粗看圖表
資料來源: ICL-NUIM 資料集,TUM RGB-D 資料集
重要名額: 累計分布函數(CDF);位姿估計誤差;
四、引言
研究原因:
- 移動端常用 GNSS 方法定位,易被障礙物遮擋,僅适用于戶外。
- 基于指紋的定位算法 infrastructure-free,将接收到的 RSS 和 MFS 與資料庫比較。
- 優點:容易建構,短期定位性能好;
- 缺點:因信号模式随時間變化,長期性能差;建構資料庫耗時耗力。
- 替代方案有:Optical,RFID,藍牙信标,ZigBee,僞衛星。精度不夠,需要人工設定、額外 infrastructure-free 代價過多。
- 基于識别的圖像定位方法類似于圖像分類,進行特征點比對。根據檢索的相關圖像估計目标圖像定位。精度低
- 基于幾何比對的方法用幾何參考 3D 模型表示場景,用 2D-3D 或 3D-3D 的特征點比對估計位姿。通常需要估計 6 個 DoF 的相機參數。但其中的位置對齊問題很難解決
- 文中的方案結合了基于識别和基于幾何比對政策。精度高并且 determining orientations
課題階段:
視覺定位系統可以大緻分為三類:
-
基于結構-最常用
原理:利用局部特征估計 2D-3D 或 3D-3D 比對,根據對應關系估算姿态。
成果:純基于 2D 的方法定位水準低,基于 3D 的方法模型的建構和維護複雜。基于 2D 的方法與局部 SfM 重建結合,資料庫構造簡單且姿态估計準确,但定位時運作時間較長。
-
基于圖像-受益于地理标記的圖像資料庫的發展
原理:将地理标記的圖像作為參考,利用基于圖像檢索政策。
傳統:基于局部描述子比對和空間驗證重排。基于内容的圖像檢索依靠邊緣、顔色、紋理和形狀等視覺内容。
當今:利用 DCNN 進行圖像檢索。将預訓練的網絡作為局部特征描述子。一些工作甚至解決了 CNN 特征的幾何不變性。
-
基于學習-最近幾年得益于計算機視覺任務的進步
原理:利用帶姿勢資訊的圖像訓練模型,來表示場景。可以預測位姿估計的比對或直接回歸相機位姿。
成果:PoseNet 使用 DCNN 解決度量定位問題,用貝葉斯 CNN 解決位姿不确定性;利用 LSTM 和對稱編碼器-解碼器等架構提高 DCNN 的性能。
從粗到精的思想
- 利用場景識别定位場景級别的區域,采用多傳感器融合方法來給出确切定位;
- 純基于視覺的方法:将定位問題轉換為在包含線段的 3D 模型中,查詢圖像的邊緣對齊問題
- 利用基于識别的階段粗略定位,然後在小區域内采用比對。但基于 SIFT 的圖像檢索在室内環境不穩定,無法廣泛使用;
- 文中提出的方法采用基于 CNN 的圖像檢索方案。對于室内場景有效,且無需 3D 模型。
主要貢獻: 将圖像檢索與基于特征的位姿估計結合,圖像檢索階段使用 ImageNet 上預訓練的網絡作為特征提取器。基于地理标記的圖像估計位姿,使用相鄰幀的圖像并且估計第一幀的位姿。用兩張連續圖像表示局部場景,從其中一個圖像中計算查詢圖像的位姿。但是位姿估計依賴圖像間的相似程度。
- 基于圖像的視覺定位方案,比對最相似的圖像
- 無需 3D 模型,從 2D-2D 比對中恢複位姿
- DCNN 模型很穩健,無需為特定場景訓練特殊模型。具有通用性
- 使用輕量模型,使用更少的圖像進行位姿定位
五、實驗過程
模型步驟,每個步驟的結論:
系統概述及方法
- 系統架構:使用 RGB 圖像,實作亞米級精度且能估計 orientation。
【論文筆記】Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free一、摘要二、結論三、粗看圖表四、引言五、實驗過程六、文章總結 - 資料準備:通過預先訓練的 CNN 模型從 RGB 圖像中提取 CNN 特征,離線完成。
- 圖像檢索:加載資料庫中圖像的所有 CNN 特征,根據特征相似度排序,輸出最高相似度的圖像集。
- 姿态估計:利用從 2 張檢索到的圖像中提取特征點的 2D-2D 對應關系計算單目視覺 setting 中的尺度,利用特征點比對計算查詢圖像位姿。
-
資料準備
相鄰圖像要有足夠的相似區域以進行特征比對;圖像太多,資料采集和計算的時間過多。資料庫的組成如下:
其中 I I I 為對應場景下的彩色圖像, P P P 為圖像關聯的位姿,其中旋轉部分用四元數表示。【論文筆記】Indoor Visual Positioning Aided by CNN-Based Image Retrieval: Training-Free, 3D Modeling-Free一、摘要二、結論三、粗看圖表四、引言五、實驗過程六、文章總結 - 基于 CNN 的圖像檢索
-
深度卷積神經網絡(DCNN)
CNNs 的配置與 VGG16 相似,VGG16 在大規模圖像識别任務中性能較好。VGG-Nets 采用了與普通 CNNs 相同的原理,該方法的關鍵是利用 3×3 卷積過濾器體系結構來增加深度。
文章使用 VGG16,包括 13 個卷積層+ 5 個 max pooling 層+ 3 個全連接配接層+ 1 個 soft-max 層。使用 CNN 進行圖像的特征提取。鑒于 CNNs 的表達能力,采用基于 ImageNet 的預訓練網絡。
-
CNNs 提取的深度特征
在特征地圖的可視化中,更深層的特征可以更好的表現圖像。深層特征可以更好的表示圖像,圖像檢索精度更高。卷積層(ReLU 和 max pooling)從輸入圖像中提取特征,特征對尺度和平移魯棒。随後将圖像特征聚合為固定長度的緊湊特征向量。
-
使用深度特征檢索圖像
使用 s c o r e i = v e c t o r i ∗ v e c t o r q T score_i=vector_i*vector_q^T scorei=vectori∗vectorqT 計算圖像間的得分,排序後輸出最相似的檢索圖像集(取 2 個)。
-
-
姿态估計
圖像檢索階段獲得與查詢圖像最相似的 2 個地理标記圖像。位姿估計步驟:
- 提取關鍵點和描述符表達 3 個圖像;
- 計算圖像間從 2D-2D 比對的變換;
- 使用變換和 2 個檢索圖像位姿,計算單目視覺的縮放比例;
- 通過單目視覺比例及查詢圖像和最相似圖像間的轉換來計算查詢圖像的位姿。
-
特征檢測和比對
SIFT 的計算成本過大,文章選取 ORB 作為點特征檢測器,用漢明距離作為距離度量以比對特征。
-
圖像特征對應的移動(與《視覺 SLAM 十四講》2D-2D 部分相同)
使用對極限制可從 2D-2D 特征對應關系計算本質矩陣 E,用來描述兩個圖像間的幾何關系。使用奇異值分解(SVD)從 E 中提取旋轉和平移。
-
确定尺度
本質矩陣缺少尺度資訊。對檢索圖像 I 1 , I 2 I_1,I_2 I1,I2 使用對極限制計算出 T 12 . T_{12}. T12.,再用計算出 T 12 ′ = i n v ( T 1 ) T 2 T_{12}'=inv(T_1)T2 T12′=inv(T1)T2。對比兩者,旋轉矩陣部分約等,平移向量部分相差一個比例即為深度。
-
查詢圖像的位姿估計
使用 2 個檢索圖像計算深度。已知檢索圖像位姿,可以通過 1 個檢索圖像計算變換矩陣,從變換矩陣中計算出位姿
實驗評估
-
資料采集
利用視覺裡程計的圖像及位姿(視覺定位和視覺裡程計的任務相似)。從 ICL-NUIM 和 TUM RGB-D 的不同場景中手動選擇圖像來組成自己的實驗資料集。
-
圖像檢索的性能
使用平均精度(=良好比對數量/圖像總數)估計圖像檢索的性能。因為特征提取和比對影響位姿估計,我們需要盡可能多的特征點,才能有更多的相似區域。提取特征點和描述子,設定最小距離的兩倍和常數間的較大數為門檻值(因為海明距離可能很小),計算良好比對的數量。
目前基于圖像的室内定位方案在 SIFT 特征上使用 FLANN 搜尋,比對精度不如本文提出的基于 CNN 特征方案,因為 CNN 特征可以更好地表示圖像。
-
定位結果與分析
位姿估計性能達到亞米級,使用誤差中位數評價平移和旋轉估計的性能(未移除異常點)。
使用 CNN 特征和點特征聯合估計位姿,與目前的 CNN 方案相比有更好的定位精度和相同的旋轉精度。
建構資料庫時需要的資料更少,減少存儲。并分析了時間性能。
讨論
- 基于 CNN 的政策的輸出圖像有很高的空間相關性,并且能夠表示場景。無需 3D 模型,帶有原始圖像和位姿的 CNN 特征能在視覺定位中表示整個區域
- 使用對應點政策估計位姿。與 2D-3D、3D-3D 方法相比,文中的方案隻需要校準的單目相機
- 對比端到端的基于學習的方案,它是直接回歸位姿,文中方案的優點是可以進行離線準備階段
- 文中方案需要更少的資料庫圖像,并且增加原始資料時不會影響提取器,可以擴充到基于 crowsourcing 的方法。
六、文章總結
問題: 室内視覺定位的準确性和成本之間難以權衡
方法:基于圖像檢索的定位方法。
論證過程:
- 基于 CNN 的圖像檢索階段,預訓練的 DCNN 提取 CNN 特征,比較相似性,輸出比對的圖像
- 位姿估計階段。利用 2 張檢索圖像中提取特征點的 2D-2D 對應關系計算單目視覺 setting 中的尺度,利用特征點比對計算查詢圖像位姿
- 通過資料集進行驗證。
優點:
- 位姿估計精度高
- 建構資料庫需要的圖像少
- 無需 3D 模型
- 易用性好,應用前景好,友善擴充資料集,更換場景無需重新訓練模型
缺點:
- 姿勢估計的性能與查詢圖像和參考圖像之間的相似性高度相關,具有較強的耦合性,子產品間獨立性較低,姿勢估計的性能過于依賴圖像檢索
- 沒考慮運動複雜和大規模場景,沒有對系統長期運作性能做測試