天天看點

ICCV研讨會:實時SLAM的未來以及深度學習與SLAM的比較

這篇短文寫的很好,我把它copy到這裡供大家學習

上一屆「國際計算機視覺大會(ICCV:International Conference of Computer Vision )」成為了深度學習(Deep Learning)技術的主場,但在我們宣布卷積神經網絡(ConvNet)的全面勝利之前,讓我們先看看計算機視覺的「非學習(non-learning)」幾何方面的進展如何。同步定位與地圖建構(SLAM: Simultaneous Localization and Mapping )可以說是機器人學領域最重要的算法之一,在計算機視覺和機器人研究社群完成了一些開創性的工作。本文将總結來自 ICCV 實時 SLAM 的未來研讨會的要點。

這篇文章包含了對 SLAM 的簡要介紹、對研讨會上發生的事情的較長的描述(全部七個演講的總結)和會議結尾處的「以深度學習為中心的小組讨論」中的關鍵資訊。

第一部分:為什麼 SLAM 很重要?

視覺 SLAM 算法可以實時建構世界的 3D 地圖,并同時追蹤攝像頭(手持式或增強現實裝置上的頭戴式或安裝在機器人上)的位置和方向。SLAM 是卷積神經網絡和深度學習的補充:SLAM 關注于幾何問題而深度學習是感覺(識别)問題的大師。如果你想要一個能走到你的冰箱面前而不撞到牆壁的機器人,那就使用 SLAM。如果你想要一個能識别冰箱中的物品的機器人,那就使用卷積神經網絡。

ICCV研讨會:實時SLAM的未來以及深度學習與SLAM的比較

SfM/SLAM 基本原理:一個場景的 3D 結構是根據點觀察和固有的攝像頭參數,從攝像頭的估計的運動中計算出來的

SLAM 是 SfM(運動恢複結構:Structure from Motion)的一種實時版本。視覺 SLAM 或基于視覺的 SLAM 是 SLAM 的一種僅使用攝像頭的變體,放棄了昂貴的雷射傳感器和慣性測量單元(IMU)。單眼 SLAM(Monocular SLAM)僅使用單個攝像頭,而非單眼 SLAM(non-monocular SLAM)通常使用一個預校準的固定基線的立體相機套件。SLAM 是計算機視覺領域所謂的「幾何方法(Geometric Method)」最好案例。事實上,卡内基梅隆大學(CMU)的機器人研究所将研究所學生水準的計算機視覺課程分成了一個「基于學習的視覺方法」和一個單獨的「基于幾何的視覺方法」課程。

1.運動恢複結構 vs 視覺 SLAM

運動恢複結構(SfM)和 SLAM 所解決的問題非常相似,但 SfM 傳統上是以離線形式進行的,而 SLAM 則已經慢慢走向了低功耗/實時/單 RGB 相機的運作模式。今天許多運動恢複結構方面的專家都在為世界上一些最大的科技公司,幫助打造更好的地圖。如果沒有關于多視圖幾何(multiple-view geometry)、SfM 和 SLAM 的豐富知識,像谷歌地圖這種成功的地圖産品根本就不可能出現。典型的 SfM 問題遵循:給定一個單個室外結構(如大劇場/大體育館)的大型照片集合,建構該結構的 3D 模型并确定每個相機的姿勢。這個照片集合以離線形式處理,而且大型結構重建所需時間從幾小時到幾天不等。

這裡給出一些流行的 SfM 相關的軟體庫:

  • Bundler:一個開源的運動恢複結構工具包
  • Libceres:一個非線性最小二乘極小化工具(對束調整(bundle adjustment)問題很有用)
  • Andrew Zisserman 的多視圖幾何 MATLAB 函數

2.視覺 SLAM vs 自動駕駛

研讨會的組織者之一 Andrew Davison 表示,盡管自動駕駛汽車是 SLAM 最重要的應用之一,但用于自動化載具的 SLAM 應該有其自己的研究軌道。(而且正如我們所見,研讨會的展示者中沒有一個談到了自動駕駛汽車。)在接下來的許多年裡,獨立于任何一個「聖杯級」的應用而繼續在研究的角度上研究 SLAM 是有意義的。盡管在自動化載具方面存在着太多的系統級細節和技巧,但研究級的 SLAM 系統所需的不過是一個網絡攝像頭、算法知識和一點辛勞而已。視覺 SLAM 作為一個研究課題對數以千計的博士生的早期階段要友好得多,他們将首先需要好幾年的使用 SLAM 的實驗室經驗,然後才能開始考慮無人駕駛汽車等昂貴的機器人平台。

第二部分:實時 SLAM 的未來

現在是時候正式總結和評論「實時 SLAM 的未來」研讨會上的演講了。Andrew Davison 以一個名叫「基于視覺的 SALM 的十五年」的精彩曆史概述開篇,他的幻燈片中還有一個介紹機器人學課程的好内容。

你也許不知道 Andrew 是誰,他是倫敦帝國學院獨一無二的 Andrew Davison 教授。他最知名的成就是其 2003 年的 MonoSLAM 系統,他是第一個展示如何在單個「單眼」攝像頭上建構 SLAM 系統的人,而那時候其他所有人都還認為打造 SLAM 系統需要一個立體的「雙眼」攝像頭套件。最近,他的研究成果已經對戴森(Dyson)等公司的發展軌迹和他們的機器人系統的能力産生了影響(如全新的 Dyson360)。

我還記得 Davidson 教授曾在 2007 年的 BMVC(英國機器視覺大會)上給出了一個視覺 SLAM 教程。讓人驚訝的是,和主要的視覺大會上其它機器學習技術的紛繁成果相比,SLAM 的變化真是非常之少。過去八年裡,對象識别已經經曆了兩三次小型變革,而今天的 SLAM 系統和其八年前的樣子看起來并沒有多大不同。了解 SLAM 的進展的最好方法是看最成功和最讓人難忘的系統。在 Davidson 的研讨會介紹演講中,他讨論了一些過去 10-15 年裡科研界所打造的典範系統:

  • MonoSLAM
  • PTAM
  • FAB-MAP
  • DTAM
  • KinectFusion

1.Davison vs Horn:機器人視覺的下一篇章

Davison 還提到他正在寫一本關于機器人視覺的新書,這對計算機視覺、機器人和人工智能領域的研究者來說應該是一個激動人心的好消息。上一本機器人視覺的書是由 B.K. Horn 寫的(出版于 1986 年),現在也到該更新的時候了。

盡管我很樂意閱讀一本重在機器人視覺原理的巨著,但我個人希望該書關注的是機器人視覺的實用算法,就像 Hartley 和 Zissermann 的傑作《Multiple View Geometry(多視圖幾何)》或 Thrun、Burgard 和 Fox 所著的《Probabilistic Robotics(機率機器人學)》那樣。一本關于視覺 SLAM 問題的「食譜」将會受到所有嚴肅的視覺研究者歡迎。

演講一:Christian Kerl 談 SLAM 中的連續軌迹

第一個演講來自 Christian Kerl,他提出了一種用于估計連續時間軌迹的密集跟蹤方法。其關鍵觀察結果發現:大部分 SLAM 系統都在離散數目的時間步驟上估計攝像頭的位置(要麼是相隔幾秒的關鍵幀,要麼是相隔大約 1/25 秒的各個幀。

Kerl 的大部分演講都集中于解決卷簾式快門相機的危害,而 Kerl 示範的系統還對模組化給予謹慎的關注并消除了這些卷簾式快門的不利影響。

  • 幻燈片:Kerl 的「密集連續時間跟蹤和測繪」幻燈片
  • 論文:使用卷簾式快門 RGB-D 相機的密集連續時間跟蹤和測繪(C. Kerl, J. Stueckler, D. Cremers), IEEE 國際計算機視覺大會 (ICCV), 2015。

演講二:Jakob Engel 談半密集直接 SLAM(Semi-Dense Direct SLAM)

LSD-SLAM 在 ECCV 2014(2014 年歐洲計算機視覺國際會議)上公開,也是我現在最喜歡的 SLAM 系統之一!Jakob Engel 在那裡展示了他的系統并向觀衆展示了當時最炫酷的一些 SLAM 可視化。LSD-SLAM 是 Large-Scale Direct Monocular SLAM(大規模直接單眼 SLAM)的縮寫。對 SLAM 研究者來說,LSD-SLAM 是一個非常重要的系統,因為它不使用邊角(corners)或其它任何本地特性。通過使用一種帶有穩健的 Huber 損失的由粗到細的算法,直接跟蹤可由圖像到圖像對準(image-to-image alignment)完成。這和那些基于特征的系統非常不同。深度估計(depth estimation)使用了逆深度參數化(inverse depth parametrization)(和許多其它系統一樣)并使用了大量或相對小的基準圖像對。該算法并不依賴于圖像特征,而是靠有效地執行「紋理跟蹤(texture tracking)」。全局映射是通過建立和解決姿态圖形(pose graph)的「束調整」優化問題而執行的,而且這所有都是實時工作的。這個方法是半密集的,因為它僅估計靠近圖像邊界的像素深度。LSD-SLAM 輸出比傳統的特征更密集,但并不如 Kinect 類型的 RGBD SLAM 那樣完全密集。

Engel 概述了原來的 LSD-SLAM 系統以及一些新成果,将它們最初的系統擴充成更有創造性的應用并實作了更有趣的部署。(見下面引用的論文)

  • 論文:LSD-SLAM:大規模直接單眼 SLAM (J. Engel, T. Schöps, D. Cremers),歐洲計算機視覺國際會議,2014。

Omni LSD-SLAM(全方位 LSD-SLAM)是 LSD-SLAM 的一種延伸,因觀察到針孔模型(pinhole model)不能用于大視場的觀測而被創造出來。這項成果提出于 IROS 2015(2015 年智能機器人和系統國際大會)(Caruso 是第一作者),能用于大視場(理想情況下可超過 180 度)。Engel 的演講很清楚地表示,你可以拿着相機以芭蕾舞般的動作(極限旋轉)在你的辦公室内走來走去。這是窄視場 SLAM 最糟糕的應用場景之一,但卻在 Omni LSD-SLAM 中效果良好。

  • 論文:用于全方位相機的大規模直接 SLAM (D. Caruso, J. Engel, D. Cremers),智能機器人和系統國際大會(IROS), 2015。

Stereo LSD-SLAM(立體 LSD-SLAM)是 LSD-SLAM 的一種用于雙眼攝像頭套件的延伸。這有助于獲得沒有限制的規模,而且其初始化是瞬時的,強烈旋轉也不存在問題。盡管從學術的角度看,單眼 SLAM 是很激動人心,但如果你的機器人是一輛 30,000 美元的車或 10,000 美元的無人機原型,你應該有足夠的理由使用一套帶有兩個乃至更多攝像頭的套件。Stereo LSD-SLAM 在 SLAM 基準上表現出了相當強的競争力。

Stereo LSD-SLAM 相當實用,能優化 SE(3) 中的姿态圖形(pose graph),并包含了對自動曝光的校正。自動曝光校正的目标是讓誤差函數相對于仿射光照變化而不變。顔色空間仿射轉換的基本參數是在比對過程中估算出來的,但也被扔掉以估計圖像到圖像變換中的錯誤。Engel 在演講中稱,離群值(outliers)(通常是由過度曝光的圖像像素造成的)往往會帶來問題,需要很仔細才能處理它們的影響。

  • 使用立體相機的大規模直接 SLAM(J. Engel, J. Stueckler, D. Cremers), 智能機器人和系統國際大會(IROS), 2015。

在他後面的示範中,Engel 讓我們一窺了關于立體和慣性傳感器的整合新研究。為了了解詳情,你隻能跟蹤 arXiv 上的更新或向 Usenko/Engel 本人了解。在應用方面,Engel 的示範中包含了由 LSD-SLAM 驅動的自動化四軸無人機的更新視訊。其飛行一開始是上下運動的,以獲得對尺寸的估計,然後又使用了自由空間的三維測繪(octomap)以估計自由空間,進而讓該四軸無人機可以在空間中為自己導航。

LSD-SLAM 的故事也是「基于特征 vs 直接方法」的故事,Engel 給了辯論雙方公正的待遇。基于特征的方法被設計用在 Harris 那樣的邊角之上,而直接方法則是用整個圖像進行對準。基于特征的方法更快(截至 2015 年),但直接方法在并行處理上效果很好。離群值可以通過追溯的方法從基于特征的系統中移除,而直接方法在離群值處理上沒那麼靈活。卷簾式快門是直接方法的一個更大的問題,而且使用全局快門或卷簾式快門模型是有意義的(見 Kerl 的研究)。基于特征的方法需要使用不完整的資訊進行決策,而直接方法可以使用更多資訊。基于特征的方法不需要很好的初始化,而直接方法在初始化上需要更巧妙的技巧。對直接方法的研究隻有 4 年,稀疏方法則有 20 多年的曆史了。Engel 樂觀地認為直接方法未來将上升成為頂級方法,我也這麼想。

在 Engel 演講最後,Davison 問到了語義分割(semantic segmentation)方面的問題,而 Engel 不知道語義分割是否可以在半密集的「接近圖像邊界」的資料上直接執行。但是,我個人的看法是,有更好的方法可将語義分割應用到 LSD 類型的 SLAM 系統上。半密集 SLAM 可以專注于靠近邊界的幾何資訊,而對象識别可以專注于遠離這同一邊界的可靠語義,進而有可能創造出一個混合了幾何和語義的圖像解讀。

演講三:Torsten Sattler 談大規模定位與地圖建構面臨的挑戰

Torsten Sattler 的演講談論了大規模定位與地圖建構。這項工作的目的是在已有的地圖内執行六個自由度的定位,尤其是移動定位。演講中的一個關鍵點是:當你使用傳統的基于特征的方法時,存儲你的描述很快就将變得非常昂貴。視覺詞彙表(visual vocabularies)(記得産品量化嗎?)等技術可以顯著減少存儲開銷,再加上某種程度的巧妙優化,描述的存儲将不再成為存儲瓶頸。

Sattler 的演講給出的另一個重要的關鍵資訊是正确資料(inliers)的數量實際上并不是相機姿态估計( camera pose estimation)的很好的置信度測量。當特征點全都集中于圖像的單一一個部分時,相機定位可能會在千裡之外!一個更好的置信度測量是「有效正确資料計數(effective inlier count)」,其可以将正确資料所在的區域作為整體圖像區域的一個部分來進行審查。你真正希望得到的是整體圖像上的特征比對——如果資訊散布在整個圖像上,你能得到更好的姿态估計。

Sattler 對未來實時 SLAM 的演講是這樣的:我們應該關注緊湊型的地圖表征,我們應該對相機姿态估計置信度有更好的了解(如樹上權重下降的特征),我們應該在更有挑戰性的場景中研發(例如帶有平面結構的世界和在白天的地圖上的夜間定位)。

  • 論文:移動裝置上可擴充的 6 自由度定位. Sven Middelberg, Torsten Sattler, Ole Untzelmann, Leif Kobbelt. ECCV 2014。
  • 幻燈片:Torsten Sattler 的「大規模定位與地圖建構面臨的挑戰」

演講四:Raúl Mur-Artal 談基于特征的方法 vs 直接方法

ORB-SLAM 的創造者 Raúl Mur-Artal 的演講内容全部圍繞着 SLAM 領域内「基于特征的方法 vs 直接方法」的争論,而他顯然站在基于特征的方法一邊。ORB-SLAM 可通過一個開源的 SLAM 軟體包擷取,而且它很難被擊敗。在他對 ORB-SLAM vs PTAM 的評價中,似乎 PTAM 實際上常常失敗(至少在 TUM RGB-D 基準上)。LSD-SLAM 在 TUM RGB-D 基準上的錯誤通常遠高于預期。

  • 幻燈片:Mur-Artal 的「我們仍然應該做稀疏的基于特征的 SLAM 嗎?」
  • 論文:單眼 ORB-SLAM R. Mur-Artal, J. M. M. Montiel 和 J. D. Tardos。一種多功能的準确的單眼 SLAM 系統。 IEEE Transactions on Robotics, 2015。

演講五:Tango 項目和用于圖像到圖像限制的視覺環路閉合

簡單來說,谷歌的 Tango 項目是世界上第一個商業化 SLAM 的嘗試。來自 Google Zurich 的 Simon Lynen(之前屬于 ETH Zurich)帶着一個 Tango 現場示範(在一台平闆電腦上)來到了研讨會,并展示了 Tango 世界的新内容。你可能不知道,谷歌希望将 SLAM 能力內建到下一代安卓裝置中。

Tango 項目展示讨論了一種通過在圖像到圖像比對矩陣中尋找特定的模式以進行環路閉合( loop closure)的新方法。這 個方法來自「沒有固定位置的位置識别」成果。他們也做帶有基于視覺的環路閉合的線上束調整。

Tango 項目的人也在研究将谷歌多個衆包地圖結合起來,其目标是将由不同的人使用配置有 Tango 的裝置創造的多個迷你地圖結合起來。

Simon 展示了一個山地自行車軌迹跟蹤的視訊,這在實踐中實際上是相當困難的。其中的想法是使用一個 Tango 裝置跟蹤一輛山地自行車,并建立一份地圖,然後後續的目标是讓另外一個人沿着這條軌迹走。這個目前隻是「半有效」——當在地圖建構和跟蹤步驟之前有幾個小時時間時有效,但過了幾周/幾個月就沒效果了。

在 Tango 相關的讨論中,Richard Newcombe 指出 Tango 項目所使用的「特征(features)」在更深度地了解環境上還是相當落後的,而且看起來類似 Tango 項目的方法無法在室外場景中起作用——室外場景有非剛性(non-rigidity)的大量光照變化等。是以我們有望見到為室外環境設計的不同系統嗎?Tango 項目将成為一個室内地圖建構裝置嗎?

  • 論文:沒有固定位置的位置識别. Lynen, S. ; Bosse, M. ; Furgale, P. ; Siegwart, R. In 3DV 2014。

演講六:ElasticFusion 是沒有姿态圖形(pose graph)的密集型 SLAM ( Dense SLAM)

ElasticFusion 是一種需要 Kinect 這樣的 RGBD 傳感器的密集型 SLAM 技術。2-3 分鐘就能獲得單個房間的高品質 3D 掃描,這真是相當酷。(就算不是大部分)許多 SLAM 系統的場景背後都使用了姿态圖形(pose graph),這種技術有一種不同的(以地圖為中心)方法。該方法專注于建構地圖,但其訣竅是其建構的地圖可以變形,也是以得名 ElasticFusion(意為彈性融合)。其中算法「融合」的部分是向 KinectFusion 緻敬——KinectFusion 是第一個高品質的基于 Kinect 的重建方式。Surfels 也被用作底層的基元(primitives)。

恢複光源:我們一窺了來自倫敦帝國學院/戴森機器人實驗室的尚未發表的新研究成果。其中的想法是通過探測光源方向和探測鏡面反射,你可以提升 3D 重建的結果。關于恢複光源位置的炫酷視訊顯示其最多能處理 4 個獨立光源。

  • 幻燈片:「使用 Elastic Fusion 的以地圖為中心的 SLAM」示範幻燈片
  • 論文:Elastic Fusion:沒有姿态圖形的密集型. SLAM. Whelan, Thomas and Leutenegger, Stefan and Salas-Moreno, Renato F and Glocker, Ben and Davison, Andrew J. In RSS 2015。

演講七:Richard Newcombe 的 DynamicFusion(動态融合)

Richard Newcombe(他最近成立的公司被 Oculus 收購)是最後一位展示者。Richard Newcombe 是 DTAM、KinectFusion 和 DynamicFusion 背後的人,見到他真是非常酷;他目前從事虛拟現實領域的研發。

  • 論文:DynamicFusion:非剛性場景的實時重建和跟蹤. Richard A. Newcombe, Dieter Fox, Steven M. Seitz. In CVPR 2015(CVPR 2015 最佳論文)。
  • 論文:SLAM++:對象水準上的同步定位與地圖建構. Renato F. Salas-Moreno, Richard A. Newcombe, Hauke Strasdat, Paul H. J. Kelly and Andrew J. Davison (CVPR 2013)
  • 論文:KinectFusion:實時密集表面地圖建構和跟蹤. Richard A. Newcombe Shahram Izadi,Otmar Hilliges, David Molyneaux, David Kim, Andrew J. Davison, Pushmeet Kohli, Jamie Shotton, Steve Hodges, Andrew Fitzgibbon (ISMAR 2011, 最佳論文獎!)

2.研讨會示範

在示範會議期間(在研讨會中間舉行),許多展示者展示了他們的 SLAM 系統工作中的樣子。這些系統中許多都是以開源軟體包的形式提供的(非商業用途免費?),是以如果你對實時 SLAM 感興趣,可以嘗試下載下傳這些代碼。但是,最亮眼的示範是 Andrew Davison 展櫃上他的來自 2004 年的 MonoSLAM 示範。Andrew 不得不恢複了已有 15 年歲月的計算機(運作的是 Redhat Linux)來展示他原來的系統,運作在原來的硬體上。如果計算機視覺社群将決定舉辦一場「複古視覺」的示範會議,那我馬上就将上前提名 Andrew 應得最佳論文獎。

看着 SLAM 系統專家揮動自己的 USB 攝像頭真是一件有趣的事——他們在展示他們的系統圍繞他們的筆記本電腦建構周圍桌子大小區域的 3D 地圖。如果你仔細看了這些專家移動攝像頭的方式(即平穩的圓圈運動),你幾乎就能看出一個人在 SLAM 領域工作了多長時間。當一位非專家級的人拿着攝像頭時,跟蹤失敗的機率明顯更高。

我有幸在示範會議期間和 Andrew 進行了交談,我很好奇這一系列的成果(過去 15 年中)中哪一個最讓他感到驚訝。他的回答是 PTAM 最讓他吃驚,因為其表明了實時束調整(real-time bundle adjustment)執行的方式。PTAM 系統本質上是 MonoSLAM++ 系統,但因為采用了一種重量級算法(束調整)而顯著提高了跟蹤效果并做到了實時——在 2000 年代早期 Andrew 還認為「實時」是不可能辦到的。

第三部分:深度學習 vs SLAM

SLAM 小組讨論真是樂趣無窮。在我們進入重要的「深度學習 vs SLAM」讨論之前,我應該說明每一位研讨會展示者都同意:語義對建構更大更好的 SLAM 系統是必需的。關于未來的方向,這裡有很多有趣的小對話。在争論中,Marc Pollefeys(一位知名的 SfM 和多視角幾何研究者)提醒所有人「機器人是 SLAM 的一個殺手級應用」,并建議我們保持對「大獎」的關注。這令人非常驚訝,因為 SLAM 傳統上是适用于機器人問題的,但過去幾十年機器人并沒有什麼成功(谷歌機器人?),導緻 SLAM 的關注重點從機器人轉移到了大規模地圖建構(包括谷歌地圖)和增強現實上。研讨會上沒人談論過機器人。

1.将語義資訊內建到 SLAM 中

人們對将語義整合到今天最出色的 SLAM 系統中有很大興趣。當涉及語義時, SLAM 社群不幸地卡在了視覺詞袋(bags-of-visual-words)的世界裡,而在如何将語義資訊整合進他們的系統上沒有什麼新想法。在語義一端,我們現在已經看到 CVPR/ICCV/ECCV 上冒出了很多實時語義分割示範(基于卷積神經網絡);在我看來,SLAM 需要深度學習,而深度學習也一樣需要 SLAM。

2.「端到端學習(end-to-end learning)會主宰 SLAM 嗎?」

在 SLAM 研讨會小組讨論結束時,Zeeshan Zia 博士提出了一個震驚所有人的問題,并引發了一場充滿能量的讨論,令人難忘。你應該看看小組成員們臉上的表情。那就像是将一個深度學習的火球投向一群幾何學家。他們的面部表情表達出了他們的困惑、憤怒和厭惡。他們想:「你怎麼敢質疑我們?」正是在這些稍縱即逝的時刻,我們才能真正體會到大會的體驗。Zia 的問題基本上是:「在建構今天的 SLAM 系統時,端到端學習很快就将取代大部分人工勞動嗎?」

Zia 的問題非常重要,因為端到端的可訓練系統已經慢慢進入到了很多進階的計算機問題中,相信 SLAM 會是一個例外是沒有道理的。有好幾位展示者都指出目前的 SLAM 系統過于依賴幾何,以至于讓完全基于深度學習的 SLAM 系統看起來不合理了——我們應該使用學習技術得到更好的點描述,而不要管幾何。「你可以使用深度學習做一個電腦,并不意味你應該這麼做。」

盡管許多小組讨論發言人都使用了有些肯定的「不行」回應,但讓人驚訝的是,卻是 Newcombe 聲援了深度學習和 SLAM 聯姻的可能。

3.Newcombe 的提議:使用 SLAM 助力深度學習

盡管 Newcombe 在深度學習可能如何幫助 SLAM 上沒有提供很多證據或想法,但他卻為 SLAM 如何可能為深度學習提供幫助給出了一條清晰的路徑。想想看我們使用大規模 SLAM 已經建構出的地圖以及這些系統所提供的對應(correspondence)——這難道不是一個建構能幫助深度學習的萬億級圖像到圖像「相關」資料集的清晰路徑嗎?其基本思路是:今天的 SLAM 系統是大規模的「對應引擎」,可以用來生成大規模資料集,而這正是深度卷積神經網絡所需要的。

結語

這次 ICCV 大會上主流的工作(重在機器學習)和本次實時 SLAM 研讨會所呈現出現的工作(重在束調整等幾何方法)之間存在相當大的脫節。主流的計算機視覺社群在過去十年内已經見證了多次小型變革(如:Dalal-Triggs、DPM、ImageNet、ConvNets、R-CNN),而今天的 SLAM 系統和它們八年前的樣子并沒有很大的不同。Kinect 傳感器可能是 SLAM 領域唯一的最大的徹底變革的技術,但基礎算法仍舊保持着原樣。

今天的 SLAM 系統能幫助機器在幾何上了解眼前的世界(即在本地坐标系中建構關聯),而今天的深度學習系統能幫助機器進行分類推理(即在不同的對象執行個體之上建構關聯)。總的來說,在視覺 SLAM 上,我與 Newcombe 和 Davison 一樣興奮,因為基于視覺的算法将會将增強現實和虛拟現實轉變成一個價值數十億美元的産業。但是,我們不應忘記保持對那個「萬億美元」市場的關注,那個将重新定義「工作」的市場——機器人。機器人 SLAM 的時代很快就要到來了。

繼續閱讀