論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

2023-06-14 22:51:06

網絡名稱：monoResMatch

論文來源：CVPR2019

核心思想

本文提出一種自監督實作單目深度估計的網絡，其思路也非常簡單，将單目深度估計轉化成立體比對問題，再用立體比對網絡進行視差估計。整個網絡結構包含以下幾個部分：初級特征提取網絡，初級視差估計網絡，視差優化網絡。初級特征提取網絡是由一個簡單的沙漏型結構構成的，對左圖提取高緯度的特征圖 F L 0 F^0_L FL0。初級視差估計網絡則是一個帶有跳躍連接配接的多尺度的沙漏型結構，輸入左特征圖 F L 0 F^0_L FL0輸出多尺度的左視差圖 d L 0..2 d^{0..2}_L dL0..2和一個虛拟的合成的右視角下的視差圖 d R 0 d^{0}_R dR0。視差優化網絡則是延續了CRL和iResNet的思路，采用殘差學習的方式對初級視差圖進行優化。利用右視角的視差圖 d R 0 d^{0}_R dR0和左特征圖 F L 0 F^0_L FL0，經Warp操作之後可獲得合成的右特征圖 F ~ R 0 \widetilde{F}^0_R F

R0，在此基礎上計算出誤差圖 e L e_L eL，再與初級視差圖級聯起來，輸入到視差優化網絡中輸出不同尺度的視差圖。文章還利用左右特征圖建構了比對代價卷，但并沒有說明如何利用這一資訊的。

論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

本文是采用自監督訓練的，也就是說不使用Groundtruth，為了訓練網絡，作者利用SGM算法獲得視差圖替代Groundtruth。損失函數分為初始部分和優化部分，分别計算初始視差圖的誤差和優化視差圖的誤差，初始部分對左右視差圖都計算損失，優化部分隻計算左視差圖。具體損失函數由三個部分組成：圖像重構損失，視差平滑損失和替代監督損失。圖像重構損失就是比較左圖，與由右圖和視差圖合成的左圖之間的差别。視差平滑損失是利用邊緣資訊權重。代替監督損失就是利用SGM生成的視差圖對網絡輸出的視差圖進行訓練。

創新點

提出一種新型的自監督單目深度估計網絡，将單目圖檔重構成雙目特征資訊，再按照立體比對的方式獲得精準的視差圖
利用SGM擷取替代的groundtruth，用于實作自監督訓練，并設計了相應的損失函數

總結

這篇文章的思路和之前商湯的一篇文章很類似，都是将單目深度估計問題轉化為雙目立體比對問題。但之前的文章是專門訓練了一個網絡用于合成右圖，而在這篇文章中并沒有專門對合成圖像進行訓練，不過僅通過左特征圖能否獲得準确的視差圖甚至是右視角下的視差圖，我還是不确定。而且文中提到的比對代價卷并沒有說明如何利用的。

如果大家對于深度學習與計算機視覺領域感興趣，希望獲得更多的知識分享與最新的論文解讀，歡迎關注我的個人公衆号“深視”。

論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

論文閱讀筆記《Learning monocular depth estimation infusing traditional stereo knowledge》

核心思想

創新點

總結

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡