天天看點

【論文】單目深度估計:Unsupervised Monocular Depth Estimation with Left-Right Consistency

Unsupervised Monocular Depth Estimation with Left-Right Consistency

#摘要

不像之前的有監督的方法一樣,利用深度圖作為标簽(GT),本文的方法用容易得到的雙目圖來訓練。利用epipolar geometry constraints。我們通過訓練我們的網絡來産生視差圖像,使其具有圖像重建的損失。結果表明,僅對圖像重建進行求解就會導緻圖像品質較差。為了解決這個問題,我們提出了一個全新訓練損失,它加強了相對于左圖像和右圖像産生的差異之間的一緻性,與現有的方法相比,這将提高性能和健壯性。

#介紹

然而,這些技術大多依賴于對感興趣的場景進行多次觀察的假設。是以現在提出了很多機遇單眼深度估計的監督學習方法。但是這種方法需要很多的有标簽的深度圖,這個代價很大。而我們的全卷積模型不需要任何深度資料,而是被訓練成将深度合成為一個中間值。

我們的算法有如下3個貢獻:

1.一種網絡結構,它執行端到端無監督的單目深度估計,并産生一種新的訓練損失,使網絡内部的左右深度一緻。

2.對幾種訓練損失和圖像形成模型的評估突出了我們的方法的有效性

3.除了展示在一個具有挑戰性的資料集上的最優結果外,我們還展示了我們的模型在三個不同的資料集上的結果,包括我們自己收集的一個新的戶外城市資料集,我們公開地收集這些資料集。

#相關工作

相關的一些工作往往對資料集有很多的限制,比如需要同個場景多張圖像,不同角度,時間序列不同光照等等,而我們的方法就是着眼于單目深度估計,且沒有任何其他的假設條件。

1.通過對比兩張圖像每個像素點間的差距,來得到深度。這種方法缺點就是資料難易擷取,需要較大的人力。

2.單視圖或單目深度估計是指在測試時隻有一個圖像可用的問題設定。而之前的方法基本上都是要講深度相機拍到的深度圖作為标簽的,而這種标簽圖也很難得到。而我們也進行單深度圖像估計,但增加了雙目彩色圖像,而不是要求地面真深度,是以我們的方法被稱為無監督深度估計。

3最近,人們提出了一種基于深度網絡的新視圖合成和深度估計方法,這種方法在訓練時不需要地面真實深度

1.DeepStereo:在測試時,他需要從其他圖中提取相鄰小塊來估計深度,是以不是一種單目深度估計手段。

2.Deep3D:根據雙目視覺的上下文資訊,從輸入的左圖像(即源圖像)生成相應的右視圖。應用了圖像重構loss,然而這種增加候選差異值的方法會消耗很多存儲資源。

3.Garg他們的方法和Deep3D與我們的方法是比較類似的,但他的方法提出的Image formation model是不全可微的,而我們解決了這個問題。

我們把單目深度估計問題考慮成一個圖像重構問題,然而隻最小化光度損失(photometric loss)隻能夠得到高品質的圖像重建結果,但得不到高品質的深度資訊。對于這個問題,我們設計的完全可微訓練損失包括一個左右一緻性檢查,以提高我們合成的深度圖像的品質。

watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpdTkzMTExMA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolvwatermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FpdTkzMTExMA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)