天天看點

論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

網絡名稱:monoResMatch

論文來源:CVPR2019

核心思想

  本文提出一種自監督實作單目深度估計的網絡,其思路也非常簡單,将單目深度估計轉化成立體比對問題,再用立體比對網絡進行視差估計。整個網絡結構包含以下幾個部分:初級特征提取網絡,初級視差估計網絡,視差優化網絡。初級特征提取網絡是由一個簡單的沙漏型結構構成的,對左圖提取高緯度的特征圖 F L 0 F^0_L FL0​。初級視差估計網絡則是一個帶有跳躍連接配接的多尺度的沙漏型結構,輸入左特征圖 F L 0 F^0_L FL0​輸出多尺度的左視差圖 d L 0..2 d^{0..2}_L dL0..2​和一個虛拟的合成的右視角下的視差圖 d R 0 d^{0}_R dR0​。視差優化網絡則是延續了CRL和iResNet的思路,采用殘差學習的方式對初級視差圖進行優化。利用右視角的視差圖 d R 0 d^{0}_R dR0​和左特征圖 F L 0 F^0_L FL0​,經Warp操作之後可獲得合成的右特征圖 F ~ R 0 \widetilde{F}^0_R F

R0​,在此基礎上計算出誤差圖 e L e_L eL​,再與初級視差圖級聯起來,輸入到視差優化網絡中輸出不同尺度的視差圖。文章還利用左右特征圖建構了比對代價卷,但并沒有說明如何利用這一資訊的。

論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

  本文是采用自監督訓練的,也就是說不使用Groundtruth,為了訓練網絡,作者利用SGM算法獲得視差圖替代Groundtruth。損失函數分為初始部分和優化部分,分别計算初始視差圖的誤差和優化視差圖的誤差,初始部分對左右視差圖都計算損失,優化部分隻計算左視差圖。具體損失函數由三個部分組成:圖像重構損失,視差平滑損失和替代監督損失。圖像重構損失就是比較左圖,與由右圖和視差圖合成的左圖之間的差别。視差平滑損失是利用邊緣資訊權重。代替監督損失就是利用SGM生成的視差圖對網絡輸出的視差圖進行訓練。

創新點

  • 提出一種新型的自監督單目深度估計網絡,将單目圖檔重構成雙目特征資訊,再按照立體比對的方式獲得精準的視差圖
  • 利用SGM擷取替代的groundtruth,用于實作自監督訓練,并設計了相應的損失函數

總結

  這篇文章的思路和之前商湯的一篇文章很類似,都是将單目深度估計問題轉化為雙目立體比對問題。但之前的文章是專門訓練了一個網絡用于合成右圖,而在這篇文章中并沒有專門對合成圖像進行訓練,不過僅通過左特征圖能否獲得準确的視差圖甚至是右視角下的視差圖,我還是不确定。而且文中提到的比對代價卷并沒有說明如何利用的。

如果大家對于深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆号“深視”。

論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

繼續閱讀