天天看點

論文筆記-Structured Coupled Generative Adversarial Networks for Unsupervised Monocular Depth Estimation

  • 論文資訊
    • 标題: Structured Coupled Generative Adversarial Networks for Unsupervised Monocular Depth Estimation
    • 作者:Mihai Marian Puscas, Dan Xu, Andrea Pilzer, Niculae Sebe
    • 機構:Huawei Technologies Ireland, University of Trento, University of Oxford
  • 代碼連結
    • https://github.com/mihaipuscas/3dv—coupled-crf-disparity
    • (代碼還未上傳)
  • 論文主要貢獻
    • 新的 CRF 耦合的雙 GAN 網絡,模型可用于無監督單目深度估計任務,隐式地探索使得生成對抗學習、結構資訊學習之間在同一網絡中互相促進
    • 模型包含兩個 GAN 分支結構,用于探索雙目立體圖像對之間的關系,指導更好的學習視差圖,耦合 CRF 的模型被實作為 CNN 的形式,用于将兩個自網絡進行結構化地混合,同時也是生成器和判别器的結構連接配接
    • 在 KITTI 等多個資料集的實驗說明了提出的模型的有效性,模型可進一步用于其他基于應用處理的富結構資訊的 GAN
  • 論文要點翻譯
    • 摘要
      • 受到對抗學習成功的啟發,本文提出用于單目深度估計的端到端無監督學習架構,架構由兩個生成對抗網絡組成,和一個結構的條件随即成深度耦合。兩個 GAN 主要用于生成不同的、互補的視差圖,通過對抗學習的政策提高生成圖像的品質
      • 深度耦合的 CRF 模型用于将兩個 GAN 生成的判别的輸出進行混合,使得網絡隐式地挖掘兩個網絡之間的互相的限制關系,挖掘生成器與判别器之間的互相限制關系,最終使得模型能夠對網絡進行整體優化,進而獲得更好的視差估計性能
      • 多個資料集上的實驗結果說明了提出模型的有效性,比起 SOTA 方法具有更好的性能
    • 引言
      • 單目深度估計是計算機視覺中的典型任務,在自動駕駛、視覺 SLAM 等領域都有應用,基于監督學習的方法主要不足在于對深度标注資料的嚴重依賴,是以一些方法試圖使用自監督的視角合成方法限制深度估計,減少對深度标注資料的依賴,這個情況下,視角合成的品質直接影響了最終的深度估計的性能
      • 對抗學習再文獻【13,22】中被用于深度估計的合成任務的改進,通過加上架構級的判别損失,用于提高圖像合成的品質,但是預測的深度圖和判别的誤差圖有很多有價值的結構資訊,比如輸入圖像中的物體資訊等在輸出中和在誤差圖中有相似的結構資訊
      • 标準的 GAN 無法直接利用這些結構資訊,且判别器不是直接連結的,是以無法之間顯式地在網絡反向傳播的過程中流動梯度資訊
      • 本文認為判别器和生成器兩個自網絡中都應該有豐富的結構資訊,對這些結構資訊進行聯合模組化可以同時優化判别誤差圖和視差圖,進而提高深度預測模型的準确度
      • 本文提出了結構對抗模型,模型可用于無監督單目深度估計,模型由兩個生成對抗網絡組成,将用于訓練的雙目立體圖像作為輸入,兩個分支分别進行圖像合成,圖像合成的過程就是每個分支中的 GAN 的 G 和 D 的博弈過程,最終生成的視差圖用于視角合成,通過混合自網絡學習的資訊,在推理過程中,模型可以隻接收一個圖像輸入
      • 其次,本文提出使用深度 CRF 模型在兩個級别進行網絡的耦合:将雙目立體圖像對的兩個圖像對應的兩個分支進行綁定,使得互補的雙目立體資訊得以模組化,同時,利用合成的深度圖和判别的誤差圖中的結構資訊,将網絡的判别器和生成器子網絡連結,兩個次元的耦合将圖像生成的通過使用結構誤差進行限制,使得最終合成的深度圖結構得以優化,學習到的 CRF 模型由生成器和判别器的誤差決定
    • 相關工作
      • 監督學習深度估計
      • 無監督學習深度估計
      • 機率圖模型方法
      • 基于 GAN 的方法
    • 方法
      • 雙 GAN
        • 基本網絡結構:網絡輸入是 N 對雙目立體圖像 { ( I l n , I r n ) } n = 1 N \{(I_l^n,I_r^n)\}_{n=1}^N {(Iln​,Irn​)}n=1N​,目标在于學習一個生成器能夠估計到從 I l n I_l^n Iln​到 I r n I_r^n Irn​ 的視差圖 d r n d_r^n drn​,監督信号使用的是利用 I l n I_l^n Iln​和視差圖 d r n d_r^n drn​合成右圖 I ^ r n \hat I_r^n I^rn​ 之後與原來的右圖之間的差異,合成過程可以形式化為 I ^ r n = f w ( d r n , I l n ) \hat I_r^n=f_w(d_r^n,I_l^n) I^rn​=fw​(drn​,Iln​),其中的 f w f_w fw​ 表示圖像的合成過程
        • G a , G b G_a, G_b Ga​,Gb​ 分别用于生成兩個視差圖 d r a 和   d r b d_{r_a}和\ d_{r_b} dra​​和 drb​​ ,再通過兩個合成操作最終用于合成兩張另外視角的圖像
        • 由于 d r a 和   d r b d_{r_a}和\ d_{r_b} dra​​和 drb​​ 來自于不同的兩張輸入圖像,而相似的圖像和重投影(warp)操作是在同樣的圖像上執行的,兩個視差圖可以對齊且是互相補充的,使用兩個判别器 D a , D b D_a, D_b Da​,Db​ 分别用于判斷合成圖像的品質
      • TO DO (剩下部分還未閱讀)

繼續閱讀