天天看點

RAL2021|基于快速直接的立體視覺SLAM

RAL2021|基于快速直接的立體視覺SLAM

Fast Direct Stereo Visual SLAM

快速的直接法的立體視覺SLAM

Jiawei Mo1、Md Jahidul Islam2 和 Junaed Sattar3*

作者來自美國明尼蘇達州明尼阿波利斯市明尼蘇達雙城大學明尼蘇達機器人研究所 (MnRI) 計算機科學與工程系。

期刊:RA-L2021

翻譯:幸運的石頭

摘要

我們提出了一種獨立于特征檢測和比對的快速準确的立體視覺同步定位和建圖(SLAM)的新方法。我們通過優化 3D 點的尺度以最小化立體配置的光度誤差,将單目直接稀疏裡程計 (DSO) 擴充到立體系統,與傳統立體比對相比,這産生了一種計算效率高且魯棒的方法。我們進一步将其擴充到具有閉環的完整 SLAM 系統,以減少累積錯誤。在假設相機向前運動的情況下,我們使用從視覺裡程計獲得的 3D 點來模拟 LiDAR 掃描,并采用 LiDAR 描述符進行位置識别,以促進更有效地檢測回環。之後,我們通過最小化可能的閉環的光度誤差來估計相對位姿。可選地,通過使用疊代最近點 (ICP) 算法來實作對直接對齊的進一步改進。最後,我們優化了一個位姿圖來提高全局的 SLAM 精度。通過避免在我們的 SLAM 系統中進行特征檢測或比對,我們確定了高計算效率和魯棒性。與最先進的方法相比,對公共資料集的實驗驗證證明了它的有效性。

1 引言

在過去的幾十年中,同步定位和建圖 (SLAM) 一直是機器人和計算機視覺領域的一個活躍研究問題 [4, 29]。它通過使用機載傳感器測量來估計機器人的瞬時位置,例如 LiDAR(光檢測和測距)傳感器、相機和慣性測量單元 (IMU)。SLAM 特别适用于 GPS 接收較弱的情況,例如室内、城市和水下環境。是以,它一直是 AR/VR [14]、自動駕駛 [3] 和 不适用GPS的機器人應用 [32] 的重要組成部分。在現有系統中,視覺 SLAM [10] 具有重要意義,因為相機是低成本的無源傳感器,是以與聲納或雷射雷達等有源傳感器相比消耗的能量更少。在戶外操作的自主移動機器人極大地受益于相機在長期部署中的低功耗。

視覺 SLAM 系統可以分為基于特征的方法和直接方法。基于特征的方法 [18, 24] 在不同幀間檢測和比對特征,然後通過最小化重投影誤差來估計相對相機運動;而直接方法 [6, 7] 通過直接最小化光度誤差來估計相機運動,而無需特征對應。與基于特征的方法相比,直接方法表現出更高的準确性和魯棒性,尤其是在紋理較差(紋理較少或重複紋理)的環境中 [9]。由于特征檢測和比對算法的計算成本很高,稀疏直接方法也有可能運作得更快(例如,SVO [9] ≥ 300 FPS)。另一方面,視覺 SLAM 系統也可以分為單目系統和多相機系統。單目系統 [6, 7, 18, 24] 無法估計多相機系統能夠估計的環境度量尺度。多相機系統通常可以實作更高的精度和魯棒性;其中,立體視覺系統 [8, 25, 31] 因其簡單性和易被接受而特别受歡迎。

大多數現有的立體視覺系統使用标準的立體比對算法[15]來解決尺度問題,這有兩個主要缺點。首先,通過沿着各自的極線單獨搜尋來找到立體對應在計算上是昂貴的。其次,如果多個點看起來與查詢點相似,則很難選擇正确的一個;當紋理重複時會發生這種情況(例如,草、沙子)。我們在 [21] 中解決了這兩個限制,其中單目系統中的 3D 點被投影到第二個相機中,并且通過最小化光度誤差來解決尺度問題。我們證明了這種直接的尺度優化在計算上是有效的,并且對視覺場景中的重複紋理更健壯。

然而,即使使用公制尺度,随着相機的移動,全局相機位姿也不可避免地會偏離真實情況,因為它是通過逐漸累積相機的相對運動來估計的。閉環帶來了全局位姿限制來全局優化位姿以解決這個問題。傳統的詞袋 (BoW) 方法通過将目前視圖的特征與曆史比對來檢測回環。然而,BoW 方法不适用于直接 SLAM 系統,因為直接 SLAM 系統不提取特征描述符。或者,我們提出了一種用于城市駕駛場景的基于 LiDAR 描述符的位置識别方法 [22]。我們假設車輛正向前移動,這樣我們就可以從立體直接 SLAM 系統中積累 3D 點來模仿 LiDAR 掃描,這些掃描由 LiDAR 描述符描述以進行位置識别。這有助于顯着提高閉環檢測的效率,并確定更高的準确性和魯棒性。

在本文中,我們将尺度優化和基于 LiDAR 描述符的位置識别方法系統地結合到一個完全直接的立體 SLAM 系統中,稱為 DSV-SLAM;我們在 https://github.com/IRVLab/direct_stereo_slam 釋出了一個開源實作。我們進行了徹底的實驗,以驗證其最先進的準确性、卓越的計算效率以及在具有視覺挑戰性的場景中的魯棒性。DSV-SLAM 展示了無需特征檢測或比對的完整 SLAM 系統的可行性。在 DSV-SLAM 中,我們采用最先進的直接稀疏裡程計 (DSO) [6] 來跟蹤相機位姿并估計 3D 點。然後,我們使用尺度優化 [21] 将其擴充到有效且準确的立體視覺裡程計 (VO)。随後,我們使用基于 LiDAR 描述符的位置識别方法 [22] 來有效地檢測回環。可能的閉環的相對位姿通過直接對齊來估計,并且可選地通過疊代最近點(ICP)方法[1]進一步細化。最後,我們組合并優化了一個位姿圖,以進一步提高全局的 SLAM 精度。圖 1 顯示了 DSV-SLAM 在 KITTI 資料集 [13] 的序列 00 上估計的軌迹和重建環境。

RAL2021|基于快速直接的立體視覺SLAM

圖 1:KITTI 序列 00 上提出的方法估計的軌迹和重建環境。

2 相關工作

在過去的二十年裡,視覺 SLAM 一直是機器人和計算機視覺文獻中一個活躍的研究問題。早期的方法依賴于各種基于濾波器的估計方法,例如 EKF-SLAM [28] 和 MSCKF [23]。從 PTAM [18] 開始,許多流行的方法将從結構到運動 [15] 中借鑒的技術(例如,光束調整)結合到基于優化的視覺 SLAM 系統中。基于優化的視覺 SLAM 系統可以分為基于特征的方法或直接方法,這取決于是否使用了特征比對。

ORB-SLAM [5, 24, 25] 是最有影響力和最成熟的基于特征的方法之一。在其立體版本 [25] 中,3D 點從立體比對中進行三角測量,然後跨幀進行跟蹤。随後,通過最小化重投影誤差,應用光束調整來聯合優化局部滑動視窗内的點和相機位姿。在後端,BoW 用于閉環檢測和相對姿态估計。随後,優化基本圖以提高全局精度。還執行全局捆綁調整以進一步提高準确性。盡管提高了準确性,但它的計算成本很高。

DSO [6, 12, 31] 是目前最先進的直接視覺裡程計。王等人[31] 将 DSO 擴充到使用立體比對進行深度初始化的立體系統。為了将 BoW 納入 DSO 系統以實作閉環,Gao 等人[12] 修改 DSO 的點選擇政策以調整可跟蹤特征并計算這些特征的描述符。然而,立體比對和特征檢測和描述在計算上是昂貴的,并且對紋理不良的環境缺乏魯棒性。

如第二節所述。在圖 1 中,我們提出了尺度優化 [21] 和基于 LiDAR 描述符的位置識别 [22] 作為立體比對和 BoW 方法的替代方案。它們支援快速且完全直接的視覺 SLAM 系統,我們試圖在本文中解決這個問題。

3 方法

圖 2 說明了所提出系統的概要。有四個計算元件:單目VO、尺度優化子產品、回環檢測子產品和回環校正子產品。

符号 我們使用來表示從坐标 a 到坐标 b 的變換(旋轉和平移)。我們将立體相機對标記為 Cam0 和 Cam1。對于 k ∈{0, 1} 的 Camk,對應的圖像是 Ik,相機投影表示為 Πk。一個 3D 點由表示,其中 p 和 dp 分别是像素坐标和(逆)深度,它們通過Π-1 0反投影到 3D 空間中

RAL2021|基于快速直接的立體視覺SLAM

圖 2:DSV-SLAM 概述:(1)從 Cam0 開始,Monocular VO 估計相機位姿并生成 3D 點;(2) 使用 3D 點,Scale Optimization 子產品估計并保持 VO 的比例;(3) Loop Detection 子產品根據來自 VO 的 3D 點檢測回環;(4) 對于可能的回環,Loop Correction 子產品估計回環的相對位姿并全局優化位姿

3.1 單目 VO

如前所述,我們選擇了一種直接方法而不是基于特征的方法,因為它在紋理不良的環境中具有準确性、計算效率和魯棒性。目前最先進的直接 VO 方法是 DSO [6],它通過最小化定義在關鍵幀和點的滑動視窗 F 上的光度誤差來工作,如

RAL2021|基于快速直接的立體視覺SLAM

即對于關鍵幀 i ∈F 中的每個點 p ∈Pi,如果它被關鍵幀 j 觀察到,則 Epj 表示相關的光度誤差。Epj 在方程式中定義。圖 2 本質上是關鍵幀 i 中的點 p 與其在關鍵幀 j 中的投影 p' 之間的像素強度差,如方程3式中所定義;仿射亮度項 (ai/j, bi/j)、曝光時間 ti/j、像素模式 Np、權重 wp 和 Huber 範數 ||·||γ 包括在光度魯棒性中。詳情請參閱[6]。值得一提的是,由于我們的子產品化系統設計,這裡可以使用任何單目 VO(最好是直接 VO)方法來代替 DSO

3.2 尺度優化

由于 DSO 是單目 VO,尺度是不可觀測的并且随着時間的推移開始漂移。立體 VO 系統通過将相機之間的公制距離引入裡程計系統來解決這個問題。如前所述,立體比對是将單目 VO 擴充到立體 VO 的傳統方法,但它的計算成本很高,并且不能很好地适應直接 VO。是以,我們在所提出的系統中采用尺度優化[21]來平衡魯棒性和效率。尺度優化的主要思想是将Cam0上的單目VO點投影到Cam1上,并找到使光度誤差最小的最佳尺度,定義為:

RAL2021|基于快速直接的立體視覺SLAM

對于每個 3D 點,它在 Cam0 幀中通過目前尺度 s 重新縮放,然後通過立體校準已知的  和投影到 Cam1。公式 4 中的光度誤差 E 被定義為  中的原始點 p 與其在中的投影 p' 之間的像素強度差。這種尺度優化的一個例子如圖 3 所示。公式.4 是 公式.2 的一個簡化公式,具有兩個條件上的簡化。首先,沒有仿射亮度參數或曝光時間。在[21]的實驗中驗證它是可行的,因為立體相機通常是硬體同步和觸發的。其次,光度誤差是使用單個像素而不是模式  中的所有像素計算的(如公式 2 中所示),因為這些點在此處保持固定。是以,尺度 s 是唯一需要優化的自由參數。這些簡化有助于高效的計算優化過程。

由于我們在系統啟動時沒有關于尺度的先驗資訊,是以我們使用從 0.1 到 50(根據經驗選擇)範圍内的初始猜測值來運作尺度優化來初始化尺度。尺度優化後,通過重新縮放 Pose 和 3D 點來相應地調整 DSO。為了DSO的一緻性,我們隻重新縮放最近建立的關鍵幀的位姿并重置其評估點;由于 First Estimate Jacobians [16,19],我們不會重新縮放其他關鍵幀,但它們的尺度将被啟發式優化。是以,DSO 的度量尺度僅通過尺度優化來估計和維護。生成的立體 VO 計算效率高,并且完全直接,無需特征提取或比對。

3.3 閉環檢測

對于VO,相機位姿的漂移是不可避免的,因為它是通過累積相機運動來估計的。為了補償這個誤差,閉環為全局姿态優化帶來了非局部姿态限制。BoW [11, 27] 是傳統的閉環方法,但由于前面讨論的原因,它不太适合直接方法。

RAL2021|基于快速直接的立體視覺SLAM

圖 3:KITTI 資料集序列 06 上的尺度優化示例。上圖為最優比例的投影,投影井與圖像重疊;底部圖像是比例不正确(0.1×最佳比例)的投影,綠色箭頭表示正确投影的位置。

我們在 [22] 中提出了一種十分适合直接 SLAM 的替代方法。我們專注于位置識别的 3D 結構,而不是 2D 特征。我們在立體 VO 的 3D 點上調整 LiDAR 描述符來描述一個位置。然而,由于相機的視野狹窄,來自 VO 的 3D 點分布在視錐體中。視錐體的位姿随着相機的位姿變化而變化,這對于位置識别來說是我們所不希望的。我們對此的解決方案如圖 2(3) 所示;假設相機運動主要是向前方向,我們建議從 VO 局部累積 3D 點以獲得一組局部點,然後在目前 Pose 周圍生成一組球面點以模仿 LiDAR 掃描。這是可行的,因為 VO 是局部準确的。為了提高效率,我們使用點過濾器來去除多餘的點。過濾後的點構成最終的模拟 LiDAR 掃描(例如,圖 5)。為了描述模拟的 LiDAR 掃描,我們更喜歡全局 LiDAR 描述符而不是局部描述符,主要有兩個原因。首先,生成和比對全局 LiDAR 描述符通常比局部更快。其次,模拟的 LiDAR 掃描不像真實的 LiDAR 掃描那樣一緻和密集,這對于局部 LiDAR 描述符來說并不理想。我們能夠使用全局 LiDAR 描述符,因為由提議的立體 VO(具有尺度優化的 DSO)生成的 3D 點具有公制尺度。在 [22] 中,我們驗證了 Scan Context [17] 對于城市地區記錄的資料集是準确和有效的。是以,我們使用 Scan Context 作為我們的 LiDAR 描述符,并專注于城市駕駛場景。

RAL2021|基于快速直接的立體視覺SLAM

圖 4:在圖 3 中位置附近的模拟 LiDAR 掃描上的 ring-key 和 Scan Context 描述符的簡化圖示。我們假設建築物和樹木的高度分别為 10 米和 3 米(僅用于此說明)。

Scan Context 的主要思想是使用城市區域(例如建築物)的高度分布來描述 LiDAR 生成的點雲。原始的 Scan Context 将點雲與 IMU 測量的重力軸對齊。由于我們不希望将額外的傳感器(即 IMU)帶入我們的視覺 SLAM 系統,是以我們使用 PCA [30] 來對齊點雲。對齊後,水準面(在我們的例子中最重要的 PCA 平面)根據半徑和方位角分為多個 bin。每個 bin 中的最大高度被連接配接起來以形成目前位置的簽名。Scan Context 的作者還建議在 Scan Context 之前使用 ring-key [17] 進行快速初步搜尋,它編碼了由半徑确定的每個環中的占用率。圖 4 給出了說明。

在我們的系統中,對于來自立體 VO 的每個關鍵幀,我們通過所提出的方法模拟 LiDAR 掃描,并使用我們修改的Scan Context生成其位置簽名。然後我們在簽名資料庫中搜尋潛在的閉環。我們首先通過 ring-key 搜尋,它速度快但區分度較低,是以我們選擇 Scan Context 的前三個候選位置來做出最終決定。

3.4 相對姿态估計

如圖 2(4) 所示,對于每個識别位置,我們嘗試估計目前位置和已識别位置之間的回環限制(即相對姿勢)。這是通過直接對齊來實作的,如 DSO 跟蹤中所做的那樣,基于以下等式:

RAL2021|基于快速直接的立體視覺SLAM

這裡, 和  分别是目前幀和識别幀。我們正在估計 ,即從識别幀到目前幀的相對位姿,由 Loop Detection 中的 PCA 對齊初始化。其他變量與方程2和方程3中的變量相同。為了記憶體效率,我們專門将點從識别幀投影到目前幀,因為對于識别幀,我們隻需要存儲稀疏點而不是整個圖像。

RAL2021|基于快速直接的立體視覺SLAM

圖 5:當直接對齊失敗時,ICP 會找到最佳姿勢,将已識别位置(紅色)和目前位置(綠色)的模拟 LiDAR 掃描對齊。

雖然方程式 6 和 7 看起來類似于 DSO 中的誤差項(即方程 1-3),在此優化中隻有兩個關鍵幀(即識别幀和目前幀),而不是 DSO 中的滑動視窗,是以,會有更少的點和限制;此外,對于閉環而言,照明、遮擋甚至場景等因素都會使其發生巨大變化。是以,單獨的直接對齊對于閉環而言是不魯棒的。為了確定魯棒性,我們執行 ICP [1] 以在直接對齊不是很确定時對齊模拟的 LiDAR 掃描(方程 6-7 收斂到較大的光度誤差)。圖 5 顯示了 ICP 的一個示例。當視覺外觀發生劇烈變化時,ICP 特别穩健。盡管它在計算上比直接對齊更昂貴,但在 Loop Detection 中來自 PCA 的初始相對位姿相當準确并且有助于快速收斂。或者,可以通過直接對齊和 ICP 聯合 [26] 來估計姿勢,以提高準确性和魯棒性。

最後,對由連續關鍵幀和閉環組成的 Pose Graph 進行優化,以提高全局的位姿精度。盡管尚未實作,但可以使用來自直接對齊或 ICP 算法的 3D 點關聯來完成全局光束調整,以提高地圖的一緻性。

4 實驗評估

為了評估DSV-SLAM系統的準确性和計算效率,我們包括了幾個DSO的變體進行内部比較。特别是,我們将 DSV-SLAM 中的尺度優化與 Stereo DSO1 [31] 中采用的立體比對方法進行了比較。我們還将基于 LiDAR 描述符的位置識别子產品的性能與 LDSO [12] 中使用的傳統 BoW 方法進行了比較。在外部,我們包括對立體 ORB-SLAM2 [25] 的性能評估,用于準确性和效率比較。由于該系統中使用的 Scan Context 是為城市駕駛場景設計的,是以我們主要關注兩個公開可用的資料集:KITTI 視覺裡程計資料集 [13] 和 Malaga 資料集 [2]。我們的實驗在 Intel™i7-8750H 平台上進行,該平台具有 2.2GHz CPU、六核和 16GB RAM。我們使用 DSO 的預設設定,其中 2000 個點位于滑動視窗中的 5-7 個關鍵幀中進行優化(即在公式 1-3 中)。此外,當模拟雷射雷達掃描進行閉環檢測時,我們将雷射雷達範圍(即圖 2(3)中的球點半徑)設定為 40 米。在目前的實作中,尺度優化在主 DSO 線程中按順序運作,而閉環部分(檢測、估計和姿态優化)在單獨的線程中運作。由于 DSO 和 ORB-SLAM2 固有的随機性,我們将每個算法運作 5 次,并在計算準确性和效率時計算平均值。

4.1 KITTI 資料集的評估

KITTI 資料集包含 22 個立體圖像序列。前 11 個序列的真值是公開的;而其餘的真值則保留用于對 VO 算法進行排名。我們專注于前 11 個序列以進行完整評估。

4.1.1 精度

為了計算精度,我們将估計的軌迹與地面實況對齊,并将軌迹的均方根誤差計算為絕對軌迹誤差(ATE)。由于 DSO 和 LDSO 是單目系統,不知道尺度,是以對齊是基于 Sim3;立體聲 DSO、(立體聲)ORB-SLAM2 和 DSV-SLAM 與 SE3 對齊。由于姿勢圖僅包含關鍵幀,是以比較基于關鍵幀。

表 1:基于 KITTI 資料集上以米為機關的絕對軌迹誤差 (ATE) 的精度比較。帶有閉環的結果用星号 (*) 标記。對于 Stereo DSO,結果是“官方結果(第 3 次實施)”;對于 DSV-SLAM,結果是“啟用回環(無回環)”。

RAL2021|基于快速直接的立體視覺SLAM

表 1 報告了 KITTI 資料集上最先進的視覺 SLAM 系統的準确性。我們對 LDSO 和 ORB-SLAM2 的結果分别與 [12] 和 [25] 中報告的結果一緻。Stereo DSO 的 ATE 是使用 [31] 提供的軌迹計算的(它們不提供代碼);我們還在括号中報告了使用第 3 方實施的結果。

由于 DSO 是單目 VO,它的 ATE 由于尺度的漂移而很大,尤其是在 00、02 和 08 等長序列上。對于 LDSO,與具有閉環的序列(即 00、02、05、06 和 07)上的 DSO 相比,ATE 急劇下降。所有立體聲系統都解決了尺度漂移問題。總體而言,ORB-SLAM2 在 KITTI 資料集上表現最好,這可能是由于基于特征的方法的成熟和全面的系統設計(例如,全局捆綁調整global bundle adjustment)。對于 Stereo DSO 和 DSV-SLAM,雖然在某些序列(例如 04)上的結果不如 ORB-SLAM2,但它們在一半以上的序列上實作了具有競争力的準确性。KITTI 資料集中具有低相機幀率(10Hz)的快速車輛運動對于直接方法(即 DSO)并不理想。

圖6:DSO(綠色)、DSV-SLAM(藍色)和ground truth(紅色)在KITTI序列00、02、05和06上估計的軌迹。通過尺度優化和閉環,相比DSO,DSV- SLAM 的提高十分顯著。

結果表明,DSV-SLAM 的準确性與最先進的視覺 SLAM 系統相當。通過閉環,DSV-SLAM 的精度在序列 00、02、05 和 06 上進一步改進。圖 6 顯示了 DSV-SLAM 估計的軌迹。由于我們的帶有尺度優化的立體 VO 已經非常準确,是以閉環的改進不如 LDSO 優于 DSO。然而,與 LDSO 和 ORB-SLAM2 不同,DSV-SLAM 沒有捕獲序列 07 中的回環。這是因為重疊的軌迹太短,無法累積局部點并模仿 LiDAR 掃描在單幀上進行BoW地點識别。

4.1.2 效率

我們研究了每個計算元件的效率,并在表 2 中報告了一個短序列 (06) 和一個綜合序列 (00) 的結果。

表 2:KITTI 資料集上的運作時間比較(平均 × 執行次數)。[SM: stereo matching; SO: scale optimization; SC: Scan Context; RK: ring-key; D:direct alignment; I: ICP]

RAL2021|基于快速直接的立體視覺SLAM

為了啟用 BoW,LDSO 中的點選擇被調整為更喜歡交叉特征幀比對,然後為每個特征提取一個描述符。是以,與 DSO 相比,花費在點選擇上的時間增加了。但是,Stereo DSO 和 DSV-SLAM 中的點選擇與 DSO 中的一樣快。我們發現 DSV-SLAM 中的尺度優化 (SO) 比Stereo DSO 和 ORB-SLAM2 中的立體比對 (SM)更快。ORB-SLAM2 中的立體比對基于特征描述符,速度最慢。相反,在 Stereo DSO 中,點被投影到立體架構,并在該投影周圍搜尋對應關系,這可能是其性能更快的原因。并且,尺度優化提供了最快的運作時間。

對于閉環,在 LDSO 中生成 BoW 比在 DSV-SLAM 中生成掃描上下文 (SC) 描述符要慢。使用 BoW 檢測閉環也比使用 DSV-SLAM 中的分層搜尋方法(即ring-key和Scan Context)慢。對于閉環姿态估計,DSV-SLAM 中的直接對齊比 LDSO 中使用的 PnP 方法 [15] 稍慢。雖然 DSV-SLAM 中的 ICP 要慢得多,但隻有在直接法并不精确的情況下發生,對于簡單的測試,這種情況發生的頻率較

RAL2021|基于快速直接的立體視覺SLAM

圖 7:Malaga Dataset的結果。序列 06 中的藍色矩形顯示車輛停止大約 40 秒的位置,DSV-SLAM 中的底層 DSO 由于交通和行人而失去跟蹤。由于陽光直射,序列 05 和 08 中的紅色矩形也丢失了 DSO 跟蹤。盡管如此,閉環在這些具有挑戰性的場景中顯着提高了 DSV-SLAM 的準确性。

低(06)。此外,DSV-SLAM(43.4 50 和 110 175)中可被接受的閉環的比率遠高于 LDSO(37 453 和 277.6 2058)。這表明我們在 DSV-SLAM 中基于 LiDAR 描述符的位置識别方法比 BoW 方法實作了更高的精度(有關更詳細的驗證,請參閱 [22])。是以,DSV-SLAM 在點選擇和回環檢測上節省的時間比回環姿态估計的損失更重要。此外,LDSO 在循環姿态優化上花費了更多時間;除了連續的關鍵幀和閉環之外,LDSO 還将每個關鍵幀和第一個關鍵幀之間的連接配接帶到了位姿圖中,以提高準确性和魯棒性。最後,ORB-SLAM2 的閉環子產品總體上要慢得多,因為它具有提高準确性和魯棒性的複雜機制。例如,ORB-SLAM2 在其 covisibility graph 中搜尋最低分數,并将其與候選分數進行比較以進行回環檢測;僅當在 covisibility 圖中找到三個一緻且連續的回環候選時,才接受回環候選。這種保守的方法會産生相當大的計算開銷。

4.2 對Malaga Dataset的評估

為了進一步驗證提出的 DSV-SLAM 系統,我們評估了它在Malaga Dataset [2] 上的性能。它比 KITTI 資料集更具挑戰性,因為它由各種具有不利視覺條件的測試用例組成。圖 7 顯示了一些具有低能見度和直射陽光的具有挑戰性的場景。在評估中,我們專注于具有閉環的序列(即序列 05、06、07、08 和 10)進行測試。由于隻有 GPS 資料可用作真值,而不是進行定量分析,我們在圖 7 中顯示了定性性能比較。我們從實驗結果中觀察到的結果如下:

• 總體而言,DSV-SLAM 和 ORB-SLAM2 的軌迹尺度都略微不準确。我們懷疑可能的原因是建築物對于Malaga Dataset中使用的短基線(12 厘米)立體相機來說太遠了。

• 在序列05 中,DSV-SLAM 中的DSO 跟蹤由于陽光直射而在轉彎處漂移(見圖7 中的紅色矩形)。尺度優化也多次失敗。但是,DSV-SLAM 的軌迹形狀仍然比 ORB-SLAM2 更準确。

• 在序列06 中,當車輛停止約40 秒時,DSV-SLAM 中的DSO 跟蹤也因交通和行人而失敗(見圖7 中的藍色矩形)。恢複跟蹤需要幾秒鐘,這導緻 DSV-SLAM 在沒有閉環的情況下進行的軌迹估計不一緻(由綠色軌迹表示)。但是,閉環會找到故障點并最終糾正軌迹。ORB-SLAM2 稍微好一點,比例更準确。

• 在序列07中,ORB-SLAM2估計的軌迹方向略有偏離,而DSV-SLAM的尺度略有偏離。

• 在序列08 中,DSV-SLAM 中的DSO 跟蹤由于亮度突然變化而在紅色矩形處失敗。是以,沒有閉環的 DSV-SLAM 的軌迹是失敗的;然而,當車輛傳回起始位置時,它可以通過閉環重新定位自己。對于 ORB-SLAM2,其軌迹的規模明顯小于地面實況。

•最後,sequence 10 是一個長期運作,包含各種直道和轉彎以及閉環,它全面測試了視覺 SLAM 算法。DSV-SLAM 生成的軌迹比 ORB-SLAM2 稍微準确一些。我們還注意到,軌迹起點和終點之間的距離因閉環而大大減少(從綠色軌迹到藍色軌迹)。

總體而言,我們發現 DSV-SLAM 的準确性與Malaga Dataset上的 ORB-SLAM2 相當,并且通常優于 ORB-SLAM2。然而,DSV-SLAM 的計算效率更高,具有顯着的餘量,如表 3 所示。在 Malaga 資料集上執行 ICP 比在 KITTI 資料集上更頻繁,因為直接對齊容易受到亮度變化的影響。

4.3 RobotCar 資料集的評估

RobotCar 資料集 [20] 記錄在全年不同的季節,我們用它來驗證基于 LiDAR 描述符的位置識别方法對 [22] 中視覺外觀變化的魯棒性。圖 8 給出了快照。我們在圖 9 中展示了 DSV-SLAM 在 RobotCar 資料集上的初步結果,其中我們首先播放序列“2015-05-19-14-06-38”(run1)

表 3:Malaga 資料集序列 10 的運作時間比較(平均毫秒 × 執行次數)。[SM: stereo matching; SO: scale optimization; SC: Scan Context; RK: ring-key; D: direct alignment; I: ICP]

RAL2021|基于快速直接的立體視覺SLAM

然後我們“綁架”機器人對“2015-08-13-16-02-58”(run2)進行排序。如圖9所示,DSO規模始終變大;漂移尺度通過尺度優化固定(見綠色軌迹);通過閉環,機器人最終重新定位自身并将兩次運作結合在一起(見藍色軌迹)。我們還使用相同的設定運作 ORB-SLAM2;但是,它的跟蹤始終失敗。

RAL2021|基于快速直接的立體視覺SLAM

圖 8:RobotCar 資料集的快照。有許多視覺外觀差異,包括樹木和樹葉、交通、行人和不同的亮度。

5 結論

在本文中,我們提出了第一個用于自動駕駛場景的完全直接的視覺 SLAM 系統,證明了沒有特征檢測或比對的完整 SLAM 系統的可行性。我們首先使用尺度優化将單目 DSO 擴充到立體系統;然後我們內建了基于 LiDAR 描述符的位置識别方法來檢測回環;對于潛在的閉環,我們使用直接對齊來估計相對姿态,該姿态得到ICP的支援當直接法失敗的時候。對公共資料集的驗證表明,所提出的系統實作了相當好的計算效率,同時在具有挑戰性的場景中提供了相當的準确性和改進的魯棒性。對于未來的工作,我們将考慮在模仿 LiDAR 掃描時消除向前移動的相機假設,以擴充我們的潛在用例。我們還打算通過內建 IMU 測量将系統擴充到立體視覺慣性系統,以進一步提高魯棒性。

6 緻謝

這項工作得到了美國國家科學基金會獎 IIS #1637875、明尼蘇達大學博士論文獎學金和 MnRI 種子基金的支援

參考文獻

[1] Paul J Besl and Neil D McKay.A Method for Registration of 3-D Shapes.In Sensor Fusion IV: Control Paradigms and Data Structures, volume 1611, pages 586–606.International Society for Optics and Photonics, 1992.

[2] Joseluis Blancoclaraco, Franciscoangel Morenoduenas, and Javier Gonza- lezjimenez.The M ́alaga Urban Dataset: High-rate Stereo and Lidars in a Realistic Urban Scenario.The International Journal of Robotics Research, 33(2):207–214, 2014.

[3] Guillaume Bresson, Zayed Alsayed, Li Yu, and S ́ebastien Glaser.Simultane- ous Localization and Mapping: A Survey of Current Trends in Autonomous Driving.IEEE Transactions on Intelligent Vehicles, 2(3):194–220, 2017.

[4] Cesar Cadena, Luca Carlone, Henry Carrillo, Yasir Latif, Davide Scara- muzza, Jos ́e Neira, Ian Reid, and John J Leonard.Past, Present, and Future of Simultaneous Localization And Mapping: Towards the Robust- Perception Age.Simultaneous Localization and Mapping.IEEE Transac- tions on Robotics, 32(6):1309–1332, 2016.

[5] Carlos Campos, Richard Elvira, Juan J. G ́omez Rodr ́ıguez, Jos ́e M. M. Montiel, and Juan D. Tard ́os.ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM.IEEE Transac- tions on Robotics, pages 1–17, 2021.

[6] Jakob Engel, Vladlen Koltun, and Daniel Cremers.Direct Sparse Odom- etry.IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(3):611–625, 2017.

[7] Jakob Engel, Thomas Sch ̈ops, and Daniel Cremers.LSD-SLAM: Large- Scale Direct Monocular SLAM.In European Conference on Computer Vi- sion, pages 834–849.Springer, 2014.

[8] Jakob Engel, J ̈org St ̈uckler, and Daniel Cremers.Large-Scale Direct SLAM with Stereo Cameras.In 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 1935–1942.IEEE, 2015.

[9] Christian Forster, Zichao Zhang, Michael Gassner, Manuel Werlberger, and Davide Scaramuzza.SVO: Semidirect Visual Odometry for Monocular and Multicamera Systems.IEEE Transactions on Robotics, 33(2):249–265, 2016.

[10] Jorge Fuentes-Pacheco, Jos ́e Ruiz-Ascencio, and Juan Manuel Rend ́on- Mancha.Visual Simultaneous Localization and Mapping: A Survey.Arti- ficial Intelligence Review, 43(1):55–81, 2015.

[11] Dorian G ́alvez-L ́opez and Juan D Tardos.Bags of Binary Words for Fast Place Recognition in Image Sequences.IEEE Transactions on Robotics, 28(5):1188–1197, 2012.

[12] Xiang Gao, Rui Wang, Nikolaus Demmel, and Daniel Cremers.LDSO: Di- rect Sparse Odometry with Loop Closure.In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 2198–2204.IEEE, 2018.

[13] Andreas Geiger, Philip Lenz, and Raquel Urtasun.Are We Ready for Autonomous Driving?The KITTI Vision Benchmark Suite.In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 3354–3361.IEEE, 2012.

[14] Oscar G Grasa, Ernesto Bernal, Santiago Casado, Ismael Gil, and JMM Montiel.Visual SLAM for Handheld Monocular Endoscope.IEEE trans- actions on medical imaging, 33(1):135–146, 2013.

[15] Richard Hartley and Andrew Zisserman.Multiple View Geometry in Com- puter Vision.Cambridge University Press, 2003.

[16] Guoquan P Huang, Anastasios I Mourikis, and Stergios I Roumeliotis.A First-Estimates Jacobian EKF for Improving SLAM Consistency.In Ex- perimental Robotics, pages 373–382.Springer, 2009.

[17] Giseop Kim and Ayoung Kim.Scan Context: Egocentric Spatial Descriptor for Place Recognition within 3D Point Cloud Map.In 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 4802–4809.IEEE, 2018.

[18] Georg Klein and David Murray.Parallel Tracking and Mapping for Small AR Workspaces.In Proceedings of the 2007 6th IEEE and ACM Inter- national Symposium on Mixed and Augmented Reality, pages 1–10.IEEE Computer Society, 2007.

[19] Stefan Leutenegger, Simon Lynen, Michael Bosse, Roland Siegwart, and Paul Furgale.Keyframe-based Visual-Inertial Odometry using Nonlinear Optimization.The International Journal of Robotics Research, 34(3):314– 334, 2015.

[20] Will Maddern, Geoffrey Pascoe, Chris Linegar, and Paul Newman.1 Year, 1000km: The Oxford RobotCar Dataset.The International Journal of Robotics Research, 36(1):3–15, 2017.

[21] Jiawei Mo and Junaed Sattar.Extending Monocular Visual Odometry to Stereo Camera Systems by Scale Optimization.In 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 6921–6927, 2019.

[22] Jiawei Mo and Junaed Sattar.A Fast and Robust Place Recognition Ap- proach for Stereo Visual Odometry Using LiDAR Descriptors.In 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pages 5893–5900, 2020.

[23] Anastasios I Mourikis and Stergios I Roumeliotis.A Multi-State Constraint Kalman Filter for Vision-aided Inertial Navigation.In Proceedings 2007 IEEE International Conference on Robotics and Automation, pages 3565– 3572. IEEE, 2007.

[24] Raul Mur-Artal, Jose Maria Martinez Montiel, and Juan D Tardos.ORB- SLAM: A Versatile and Accurate Monocular SLAM System.IEEE Trans- actions on Robotics, 31(5):1147–1163, 2015

[25] Raul Mur-Artal and Juan D Tard ́os.ORB-SLAM2: An Open-Source SLAM System for Monocular, Stereo, and RGB-D Cameras.IEEE Trans- actions on Robotics, 33(5):1255–1262, 2017.

[26] Chanoh Park, Soohwan Kim, Peyman Moghadam, Jiadong Guo, Sridha Sridharan, and Clinton Fookes.Robust Photogeometric Localization Over Time for Map-Centric Loop Closure.IEEE Robotics and Automation Let- ters, 4(2):1768–1775, 2019.

[27] Josef Sivic and Andrew Zisserman.Video Google: A Text Retrieval Ap- proach to Object Matching in Videos.In Proceedings of the IEEE Interna- tional Conference on Computer Vision, pages 1470–1478, 2003.

[28] Randall C Smith and Peter Cheeseman.On the Representation and Es- timation of Spatial Uncertainty.The International Journal of Robotics Research, 5(4):56–68, 1986.

[29] Sebastian Thrun.Simultaneous Localization and Mapping.In Robotics and cognitive approaches to spatial mapping, pages 13–41.Springer, 2007.

[30] Federico Tombari, Samuele Salti, and Luigi Di Stefano.Unique Signatures of Histograms for Local Surface Description.In European Conference on Computer Vision, pages 356–369.Springer, 2010.