
本文由知乎作者青青韶華授權轉載,不得擅自二次轉載。
論文題目:Real-Time Semantic Stereo Matching
論文位址:https://arxiv.org/abs/1910.00541v2
本文介紹在ICRA 2020上發表的論文《Real-Time Semantic Stereo Matching》,這篇論文提出了第一個實時的語義立體比對網絡RTSSNet,即将語義分割和雙目深度估計兩個任務用同一個端到端的網絡來實作,并且達到實時的速度,在2080ti上最快可以達到60FPS。
ICRA是機器人的頂級會議,上面也會發表一些關于立體比對的論文,這相當于是機器視覺領域。本文可以和在ICRA 2019上發表的AnyNet對比來看。
Motivation
論文的動機來源于實際場景的需求。場景了解在機器人、自主導航、增強現實和許多其他領域都是至關重要的。為了完成這項任務,一個可以自動了解場景的智能體必須推斷感覺場景的3D結構(即知道它看到的東西在哪,深度資訊)和它的内容(即知道它看到了什麼,語義資訊)。為了解決這兩個問題,一個更好的選擇是利用神經網絡從雙目圖像中推斷語義分割和深度估計資訊。是以,本文将語義分割任務和雙目深度估計任務合二為一,并且做到了實時的速度。
Method
上圖是RTSSNet的簡略架構圖,主要分為四個子產品:
1. 特征提取子產品(藍色),語義分割和立體比對共享;
2. 視差估計子產品(橙色),先估計一個粗糙的初始視差圖;
3. 語義分割子產品(綠色);
4. 協同視差優化子產品(紫色),利用語義資訊優化初始視差圖。
(1)共享特征提取子產品
特征提取子產品類似一個編碼結構,通過逐漸的卷積和池化操作,将分辨率降至1/4,1/8,1/16,1/32,以便為兩個任務提取通用的并且豐富的特征表示。特征圖的通道數分别對應2c,4c,8c,16c。這裡c取1對于視差估計就足夠了,但是對于語義分割還有所欠缺。
(2)視差估計子產品
視差估計子產品類似解碼結構,從各個分辨率的特征圖開始預測視差,這裡選取了1/4,1/8,1/16三種尺度(1/32由于分辨率太小而舍去),它們分别對應視差估計的三個階段。從分辨率最小的開始作為第一階段,利用左右圖特征建構cost volume,再利用3D卷積聚合預測視差,stage1預測的是最粗糙的視差圖。之後的stage2和stage3都是估計視差殘差,和AnyNet類似,因為殘差更容易學習和計算。利用殘差和初始視差逐漸優化視差。
(3)語義分割子產品
語義分割類似深度估計子產品,也是一個從粗糙到精細的逐階段優化的過程,同樣是3個階段,與視差估計網絡形成對稱結構。
(4)協同視差優化子產品
理論上前三步已經實作了實時的深度估計和語義分割,不過深度估計的精度還是太低了。是以在時間允許的條件下,可以進一步利用語義分割的特征來優化視差圖。由于語義分割和視差估計兩個子產品是對稱的,利用相同階段兩個網絡的特征可以得到另外3個階段的精修視差圖。
Experiments
作者在KITTI資料集上進行評測,首先看RTSSNet和AnyNet的比較:
可以看到在KITTI2015驗證集上,RTSSNet在c取不同值時準确率都要高一些,但是速度會慢不少,畢竟RTSSNet還需要輸出一個語義分割的結果。
在KITTI 2015基準測試上,比SOTA網絡的速度要快很多;和實時性網絡相比,比MADNet和StereoNet的準确率都要高一些,在實時網絡中表現SOTA。
在語義分割上比SegStereo準确率還略高,但是速度要快很多。不過相比于一些實時分割網絡,還是要差一些。