天天看點

WACV 2020 | 基于2D卷積處理成本簽名的快速立體比對

WACV 2020 | 基于2D卷積處理成本簽名的快速立體比對

本文由知乎作者青青韶華授權轉載,不得擅自二次轉載。

論文題目:Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures

論文位址:​​https://arxiv.org/abs/1903.04939v1​​

開源代碼:​​https://github.com/ayanc/fdscs​​

本文介紹Amazon和華盛頓大學在WACV 2020上的論文《Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures》,他們在這篇工作中提出了一個實時的深度立體比對網絡,在GPU上可以達到48FPS。

首先來看和其他SOTA實時網絡的對比,借此機會可以簡單回顧一下基于深度模型的實時立體比對的進展。

WACV 2020 | 基于2D卷積處理成本簽名的快速立體比對

從右往左看,[19]是MADNet,CVPR 2019的Oral,第一個自适應的實時立體比對網絡。所提方法和MADNet的速度差不多,不過準确率要更高,畢竟所提方法是基于全監督的,而MADNet在真實資料上是無監督的,性能會有所降低。

[10] 是2017年發表在MLSP上的一篇文章,它采用傳統的比對成本和傳統的成本聚合流程,利用一個可學習的深度網絡來控制不同區域的成本聚合參數。由于利用了傳統比對方法的快速性。雖然它的速度可達29FPS,不過精度卻比較低。

[4]是Uber在ICCV 2019新提出的DeepPruner,借鑒傳統的PatchMatch方法,将其設計為可導的RNN形式,來避免cost volume中大量重複的計算,速度可達62ms,大約16FPS。準确率較高,不過速度不是很快。

再往左是一些經典的深度立體比對模型,DispNetC(CVPR 16),iRetNet(CVPR 18),SegStereo(ECCV 18),GA-Net(CVPR 19),這裡不再一一介紹。

一、Motivation

目前基于深度模型的立體比對網絡雖然準确率很高,但是速度非常慢,這主要受限于計算代價過高的比對代價體(cost volume)以及用來進行成本聚合的含參量較大的3D卷積。如果隻采用2D卷積進行代價聚合,速度将會大大提升。

受之前工作的啟發,在給定少量的稀疏深度度量和彩色參考圖像後,就能夠重構出準确率較高的深度圖(KITTI其實就隻給定了稀疏的視差标簽,但是由此訓練的模型可以預測準确的密集視差圖)。這表明微弱的,帶噪聲的深度資訊已經是足夠的。

二、Method

WACV 2020 | 基于2D卷積處理成本簽名的快速立體比對

上圖是論文提出方法的架構圖。主要分為三部分:

1. 利用傳統算法快速得到初始的比對代價;

2. 利用卷積層将其映射為成本簽名(cost signature map);

3. 利用類似U-Net的2D卷積計算的編碼-解碼結構得到最終的視差圖。

其中第1步是固定不變的,而後兩步構成了可學習的端到端網絡。

具體來說,第1步中首先将圖像下采樣到原圖的一半分辨率。将圖像從RGB圖像轉到YUV空間。對于亮度Y通道,采用基于漢明距離的傳統比對成本計算方法。對于顔色資訊的U和V通道,采用兩個通道的絕對值構成cost volume。

第2步中提出的成本簽名可以看做是一種低次元的cost volume,是以第2步的目的就是使用1*1卷積進行cost volume的逐漸降維。

第3步中利用基于2D卷積的U-Net結構,相比于之前的3D卷積,速度更快,參數量更少。并且使用彩色參考圖像作為引導,最後将得到的1/2分辨率視差圖經過上采樣得到全分辨率的視差圖。

三、Experiments

作者主要在KITTI 2012和2015資料集上進行實驗,對于一個實時的網絡,所提出的方法做到了在相同速度條件下的精度優勢,和在相同精度下的速度優勢。

WACV 2020 | 基于2D卷積處理成本簽名的快速立體比對

四、Conclusion

上述内容,如有侵犯版權,請聯系作者,會自行删文。

繼續閱讀