天天看點

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

論文閱讀《RGB2LIDAR: Towards Solving Large-Scale Cross-Modal Visual Localization》

多模态融合視覺定位方法,2020的ACM-MM,主要的創新點就是提出了一個融合LIDAR和IMAGE這兩個模态,進行視覺定位,将定位任務轉換為檢索任務,總結來說,最大的意義在于提出了這個架構,并且證明了多模态融合視覺定位的有效性,但是架構裡的很多細節都很粗糙,比如說不同資訊的組合在文章中是十分簡單的,也就是說有很大的提升空間。

代碼尚未開源(感興趣的同學們可以去催催): https://github.com/niluthpol/RGB2LIDAR

《RGB2LIDAR: Towards Solving Large-Scale Cross-Modal Visual Localization》(ACMMM 2020 )

Motivation: 跨模态比對是自動駕駛所需要的功能,目前現有的跨模态比對定位存在一些問題,一是他們的資料集的體量很小并且精度不高,二是他們嚴重依賴于人工設計的特征是以無法保持在不同環境的魯棒性,三是他們絕大部分在城市場景進行測試,場景單一。鑒于以上原因,作者認為目前的跨模态比對方案是無法證明他們的有效性,是以一一針對這些問題給出了解決方案。

Contribution:

1.本文研究了一個重要但很大程度上尚未探索的大規模跨模态視覺定位問題。并且目前現有的跨模态工作對于資料集的大小和場景限制多。作者認為本文的工作能對未來的跨模态視覺定位工作起到重要的啟發作用。

2.作者認為本文提出了第一個基于深度學習的跨模态視覺定位方法,該方法基于訓練聯合的資料表示并且同時利用多模态的外觀和語義資訊。

3.為了對跨模态視覺定位任務進行大規模評估,本文引入了一個新的大規模資料集,其中包含 550K個跨模态耦合定位對,定位對包含地面RGB 圖像和來自覆寫約 143 平方公裡區域的航空 LIDAR 點雲的渲染深度圖像。

4.本文比較了兩種用于訓練LIDAR深度圖的語義分割網絡的互補方法,一種是基于 LIDAR 深度分割網絡的弱監督訓練,另一種是對有限多樣性資料集進行全監督的訓練。

5.本文進行了廣泛的實驗研究,以确定這個問題的挑戰性,并展示了所提出的模型與以前的工作相比的優勢。

Content:

1.GRAL資料集

本文的貢獻之一就是提供了一個大範圍的跨模态比對資料集,資料集采樣如下,主要包含RGB圖像和相應的LIDAR深度圖資訊。資料集總共包含557627個比對對,其中20%作為驗證集,10%作為測試集,剩下的作為訓練集。RGB 圖像從谷歌街景收集,LIDAR深度圖通過 USGS 渲染航空 LIDAR 點雲來收集。

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

2.RGB2LIDAR

本文所提出的RGB2LIDAR架構如下,主要思路就是通過将地面 RGB 圖像與LIDAR深度圖進行比對跨模态地理定位。在訓練期間,提供從同一地理位置捕獲的 RGB 圖像和 LIDAR 深度圖像的比對對。在測試期間,執行跨模态檢索,通過比對RGB圖像以及LIDAR深度圖來查詢 RGB 圖像的地理位置。

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

具體内容依次如下,首先描述了一個基于使用外觀資訊學習聯合多模态嵌入的跨模态比對的通用架構;然後通過融合在外觀和語義線索的不同組合上學習到的聯合embedding以改進跨模态比對的精确度;最後提出了兩種互補的方式來從LIDAR深度圖中提取語義資訊。

A.訓練聯合多模态embedding

基于目前比較流行的一些訓練對,使用了三元組排序損失函數在同一個空間裡embed兩個損失函數。假設RGB圖像和LIDAR深度圖的特征向量分别是fr和fd, 然後使用線性投影将兩個模态都投影到一個共同空間:

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )
RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

,W(r)和W(d)分别是RGB圖像和LIDAR深度圖的投影函數。

在已知RGB圖像和LIDAR深度圖的聯合特征表示對的前提下,接下來的目标是使得來自相似地理位置的特征對的特征空間中的正負對比更接近。作者使用雙向三元組排名損失函數來實作這個目标:

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

B.組合外觀和語義的線索

為了有效地利用外觀和語義資訊,我們基于之前模型集建構檢索系統 ,其中包含多個專家模型的組合進而獲得高品質的預測器。通過使用4種不同的從RGB圖像和LIDAR深度圖獲得的外觀和語義特征的組合方式,來找出最合适的聯合embedding模型。

在查詢階段,給定RGB圖像,那麼在每個聯合embeding空間都與相應的LIDAR深度圖計算一次相似度分數。最終的專家模型使用分數的權重融合進行最終排名:

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

App指的是appearance , Sem指的是semantic, Sapp−Sem指的是使用來自RGB的外觀和來自Lidar的語義,其他的以此類推, w1,w2,w3,w4分别是經驗值。

總的來說,這裡作者采用的是一種比較簡單直接的融合方式,可能是因為作者僅僅是想證明融合多個線索比單個線索好,也就是說,這裡存在很大的改進空間。

C.LIDAR深度圖的語義線索

對于 RGB 模态,作者直接使用基于Seg-Net的預訓練分割網絡。鑒于當時并沒有基于航空LIDAR點雲的預訓練分割網絡,并且也很難在LIDAR深度圖上獲得人工的标注,另外在實驗中也注意到如果直接利用在 RGB 圖像上訓練的特征來從 LIDAR 圖像中提取語義線索,訓練出的聯合embedding的性能很差。

是以在這個部分,作者主要探索了如何采用兩種互補的方式來提取雷射語義特征:

1)弱的跨模态監督

這個方法受到兩個簡單直覺的啟發:(1)雖然沒有針對航空 LIDAR 深度圖像的預訓練分割網絡,但存在強大的 RGB 圖像分割網絡,以及(2)RGB 和 LIDAR 深度圖像是弱對齊的,是以 RGB 分割圖包含有關捕獲場景的總體布局的有用資訊。

之後利用從配對 RGB 圖像中提取的分割圖作為地面實況圖來訓練 LIDAR 深度圖的分割網絡。由于模态之間的弱對齊,RGB 分割圖包含足夠豐富的信号來訓練 LIDAR 深度圖像的合理分割網絡。

2)小資料集的全監督

第一種方法的一個缺點是RGB模态中的标注存在比較多的雜音,即使是有用的标注也僅僅是與LIDAR模态弱對齊,這可能會導緻模型無法很好地泛化。是以探索了第二種方法,就是使用在其他資料集上訓練分割網絡來訓練特征。實驗中使用DublinCity 資料集,其中包含在都柏林市中心周圍收集的标記 LIDAR 點雲,面積僅為2KM2。

作者之後在實驗中介紹了如何使用這兩種互補的方法來提供語義線索。

3.實驗

A.GRAL資料集的測試結果

可以很明顯的看出,與現有的baseline相比,作者所提出的RGB2LIDAR方法的優越性

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

B.消融實驗

不同的組合政策,和上面的2.B相對應,顯然是最後一種全面的政策效果最好。

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

C.LIDAR深度圖的語義分割網絡分析

目前的對比結果是使用弱監督的跨模态語義分割網絡的效果更好,但是作者認為組合小資料集的全監督在未來是一個更好的方向,圖檔是四個不同場景的弱監督跨模态語義分割可視化圖。

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )
RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

D.和僅僅隻有外觀線索的方法的可視化比較

通過可視化的效果說明這種融合的方式,相比于單一的模态,可以捕捉到更加全面的資訊

RGB2LIDAR:多模态融合的大範圍場景的視覺定位(ACM-MM2020 )

Conclusion

作者在這篇文章主要是提出了一種用于大規模跨模态視覺定位的方法。所提出的 RGB2LIDAR 利用在訓練中自動收集的跨模态位置耦合對,并內建外觀和語義資訊進行高效檢索。文章還建立了一個新的資料集 GRAL 來評估大規模跨模态視覺定位任務。

總的來說,這項工作的基本思想也可應用于将 RGB 圖像與其他模态資料進行比對以進行定位,例如來自其他傳感器的 3D 點雲、CAD 模型,畢竟在未來,多模态融合定位還是很重要的。