天天看點

論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth

摘要

1.将sfm當作一個學習問題;

2.訓練了一個CNN能夠通過連續無限制的圖檔,計算深度和相機移動

3.CNN由多堆編碼-解碼網絡組成,核心部分是一個疊代網絡,能夠提高預測精度

4.本網絡能夠輸出:1)深度資訊;2)相機運動資訊;3)平面法向量;4)光流;5)光流比對可信度。

5.相對于其他的能夠預測深度的網絡,DeMoN能夠學習到比對的概念。

論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth

1.介紹:sfm

1.傳統的SFM由幾個固定的工作流程組成,現在使用這些流程具有一些内在的缺陷。

1)在通過稠密比對進行場景重建前,必須先進行相機的位姿估計。是以,如果相機位姿估計有誤會導緻深度值估計錯誤。

2)起始的相機姿态估計來源于稀疏的特征點比對,這種低級别的過程往往會出現異常值并且在沒有紋理的區域工作也不正常。

3)當相機僅有微小平移時,目前所有的sfm都會失效。因為相機的微小移動會導緻問題退化。

2.本文提出的網絡具有以下特性

1)通過一對無限制圖檔對,同時計算深度與相機位姿估計。因為其同時性,是以有别于傳統的sfm技術。

2)目前本文的方法不支援大場景的SFM,但是本文的方法是朝着大視場SFM進步的一步。

3.本文能夠說明,以後基于資料驅動的學習方法具有很大的潛力。其能夠自動學習之前我們建立模型時所提出的強烈先驗。
4.CNN單幀圖像預測深度值[7,8,24]

缺點:

1)泛化能力差:在預測從未見過的圖檔時,效果很差,因為其沒有利用雙目立體視覺。

5.本文提出的網絡,利用了視差資訊,不存在上述的缺點,能夠應用于從未見過的場景。

1)為了利用視差資訊,網絡的輸入必須是兩張相關的圖檔對。

2)簡單的編碼-解碼網絡,不能夠充分的利用立體視覺:因為在最終預測深度時,簡單的編碼-解碼網絡僅僅使用輸入圖檔對的其中一張圖檔,這與單幀圖像恢複深度沒有什麼差別。因為單幀圖像恢複深度資訊是實作訓練目标的捷徑,其不需要兩張相關輸入圖檔,不需要推測相機位姿變化。

3)本文提出的網絡,打破單目圖檔恢複深度時簡單實作訓練的捷徑。關鍵在于能夠建立一個使用相機位姿資訊、恢複深度的資訊、以及光流資訊的網絡。

6.為了實作建構網絡對兩幀輸入圖檔的充分利用,使用以下網絡架構:

1)使用一個等價于RNN的疊代網絡;不同之處在于,在訓練循環網絡時,我們将正常訓練疊代的預測附加到目前的小批量,而不是典型的展開。這樣的訓練手段能夠為我們節省記憶體空間

7.利用一個特殊的LOSS去解決SFM的尺度不确定性問題。

2.相關工作

1.一對圖檔進行深度與相機位姿估計:過去[25,17,10];當今優秀方法[14,42]。

1)這些方法都遵循同一個工作架構

①對兩張圖檔之間的特征點進行稀疏比對;、

②估計相機的本質矩陣去估計相機的位姿變化

③利用一定的優化手段(濾波器等),去濾除異常點。

2)即使BA作為優化手段時,其同時優化相機位姿與深度資訊,但是其最後的優化效果取決于初始化效果(初始化時先特征點比對,再位姿估計,這一步并不是同時進行的)。

3)傳統方法的特點:先估計相機運動+稀疏3D點雲,再利用極線集合的方法重建稠密點雲。

2.[14,42]适用于大場景重建,能夠恢複整個城市的場景,
3.傳統方法的特點:先估計相機運動+比對稀疏3D點雲,再利用極線集合的方法重建稠密點雲。

1)與傳統方法差異的LSD-SLAM[9]:比對半稠密點雲同時重建地圖。它考慮一段時間内的多幀圖像,但是沒有使用BA。

2)DTAM [30]可以通過比對密集深度圖來可靠地跟蹤相機姿勢以獲得關鍵運動。 但是,需要外部深度圖初始化,而後者依賴于經典結構和運動方法

4.[41]圖像間稠密比對關系,計算相機位姿變化;本文通過深度學習的方法,deviate from上述方法通過圖像間稠密比對關系,估計相機姿态。
5.[7]CNN估計深度:單目圖像估計深度是一個病态問題,隻能夠通過增加先驗知識或者語義資訊去解決此類病态。CNN網絡就能夠很好的學習一定的先驗與語意資訊去解決這個問題。

[24]結合CNN+超像素+條件随機場單目圖像深度估計。

本文提出的網絡,不僅能夠學習到單目圖像恢複深度時需要的先驗以及語意資訊,還能夠充分利用兩張圖檔間的視差資訊,進而能夠應用于從未見過的場景。

6.CNN在SFM中的應用:代替前端的特征點比對過程。[6,44]
7.[45]利用網絡估計兩張圖檔之間的視差圖;[5,28]利用網絡估計圖檔之間的稠密比對。本文的方法與[45,5,28]相似。與[28,45]的不同之處在與我們兩張圖檔之間相機運動是任意的,而不是固定的,此時學習起來更加困難。
8.[12]CNN利用視訊流重建3D場景:他們通過假設相機姿态已知去簡化問題,允許他們使用平面掃描方法在給定的場景視圖之間進行插值。 此外,他們從未明确預測深度,僅從中間視點預測RGB圖像。
9.[2,19]使用CNN預測相機姿态變化,但是這兩篇論文的工作重點不在預測相機姿态,而是學習特征表達;[21]訓練了一個CNN去相機重定位:通過單目圖檔能夠預測相機在已知場景的位置,,其僅能使用訓練過的場景,對于新場景,必須進行重新訓練。
論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth
論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth

3.網絡結構

1.由一系列的編碼-解碼網絡組成,整個網絡主要包括3大子產品

1)引導網絡:許多編碼-解碼網絡組成,計算光流

2)疊代網絡:許多編碼-解碼組成,計算深度與相機姿态

3)細化/提純網絡:一個編碼-解碼組成,産生最終超分辨與細化的深度圖

2.引導網絡:

1)輸入:一對圖像

2)輸出:初步深度圖+初步相機位姿+初步尺度s

第一個E-D網絡輸出光流圖+光流信任度圖

4)E由1緯模闆組成(InceptionV4)保證計算速度,通過不長=2,降低空間次元增加通道次元

5)D逆卷積E的輸出,輸出x,y的光流圖+光流信任圖

第二個E-D以上一個D的輸出作為輸入,利用光流圖變換其中一張圖檔為另一張圖檔。

7)E由1緯模闆組成(InceptionV4)保證計算速度,通過不長=2,降低空間次元增加通道次元

8)D逆卷積E的輸出

3.疊代網絡:其中結構與引導網絡的一樣,但是輸入不同

1)第一個E-D輸入:轉換深度圖+相機位姿資訊為光流圖,将此光流圖+作為輸入

2)第一個E-D輸出:深度圖+相機位姿資訊

3)第二個E-D輸入:使用先前的相機運動預測将光流轉換為深度圖,将此深度圖+光流圖作為輸入

4)第二個E-D輸出:

注意:

4.提純網絡:簡單的逆卷積

4.深度與相機移動參數

1.本網絡計算第一個視角的深度圖,深度圖的值是深度的倒數。

2.通過規定相機平移量t = ||1||去解決尺度不确定性問題。

5.loss方程:基本都需要ground-truth

簡介:本網絡預測的輸出具有很大的差別:一個是高次元的深度圖,兩一個是低次元的相機姿态矩陣。是以,loss必須能夠平衡這些目标,并且能夠刺激兩個目标能夠協同合作。

1.逐點損失函數:深度,平面法向量,光流,光流神人

1)深度圖:需要ground-touth

論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth

2)法向量:需要ground-truth

3)光流:需要grond-truth

論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth
2.相機移動loss

1)旋轉:需要ground-truth

2)平移:需要ground-trurh

論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth
3.尺度不變loss(有點類似于eigen提出的尺度不變loss)
論文研讀:2016 DeMoN Depth and Motion Network for Learning Monocular Stereo摘要1.介紹:sfm2.相關工作3.網絡結構4.提純網絡:簡單的逆卷積5.loss方程:基本都需要ground-truth

此函數讓估計深度圖的梯度與groud-truth的深度圖的梯度接近,保證估計得到的深度圖紋理清晰、平滑。

4.loss權重配置設定:經驗上的對權重進行劃分

繼續閱讀