天天看點

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

本文是計算機視覺頂會ECCV 2018錄取論文中備受關注的一篇,來自谷歌&普林斯頓大學的研究人員提出了第一個主動雙目立體成像系統的深度學習解決方案,在諸多具有挑戰性的場景中展示出最先進的結果。

深度傳感器(Depth sensors)為許多難題提供了額外的3D資訊,如非剛性重構(non-rigid reconstruction)、動作識别和參數跟蹤,進而給計算機視覺帶來了革新。雖然深度傳感器技術有許多類型,但它們都有明顯的局限性。例如,飛行時間系統(Time of flight systems)容易遭受運動僞影和多路徑的幹擾,結構光(structured light )容易受到環境光照和多裝置幹擾。在沒有紋理的區域,需要昂貴的全局優化技術,特别是在傳統的非學習方法中, passive stereo很難實作。

主動雙目立體視覺(Active stereo)提供了一種潛在的解決方案:使用一對紅外立體相機,使用一個僞随機模式,通過圖案化的紅外光源對場景進行紋理化(如圖1所示)。通過合理選擇傳感波長,相機對捕獲主動照明和被動光線的組合,提高了結構光的品質,同時在室内和室外場景中提供了強大的解決方案。雖然這項技術幾十年前就提出了,但直到最近才出現在商業産品中。是以,從主動雙目立體圖像中推斷深度的先前工作相對較少,并且尚未獲得大規模的ground truth訓練資料。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

在主動雙目立體成像系統中必須解決幾個問題。有些問題是所有的雙目系統問題共有的,例如,必須避免比對被遮擋的像素,這會導緻過度平滑、邊緣變厚和/或輪廓邊緣附近出現飛行像素。但是,其他一些問題是主動雙目系統特有的,例如,它必須處理非常高分辨率的圖像來比對投影儀産生的高頻模式;它必須避免由于這些高頻模式的其他排列而産生的許多局部最小值;而且它還必須補償附近和遠處表面投影圖案之間的亮度差異。此外,它不能接受ground truth深度的大型主動雙目資料集的監督,因為沒有可用的資料。

在這篇論文中,我們介紹了ActiveStereoNet,這是主動雙目立體成像系統(active stereo systems)的第一個深度學習解決方案。由于缺乏ground truth,我們的方法是完全自我監督的,但它産生了精确的深度,子像素精度是像素的1/30;它沒有遭到常見的過度平滑問題,保留了邊緣,并且明确地處理了遮擋。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

我們引入了一種新的重構誤差(reconstruction loss),它對噪聲和無紋理更新檔(patches)更具穩健性,并且對光照的變化保持不變。我們提出的損失是通過基于視窗的成本聚合和自适應的支援權重方案優化的。這種成本聚合使邊緣保留并使損失函數平滑,這是使網絡達到引人注目的結果的關鍵。

最後,我們展示了預測無效區域(如遮擋)的任務是如何在沒有ground truth的情況下完成的,這對于減少模糊至關重要。我們對真實資料和合成資料進行了大量的定量和定性的評估,證明了該技術在許多具有挑戰性的場景中得到了state-of-the-art的結果。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

ActiveStereoNet的架構如圖2所示。我們使用一個兩階段的網絡,其中一個低分辨率的成本體積被建構來推斷第一視差估計。一個雙線性上采樣後的殘差網絡用來預測最終視差圖。底部的Invalidation Network也被端到端地訓練來預測置信度圖。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

我們提出的loss對于遮擋更強健,它不依賴于像素的亮度,也不受低紋理區域的影響。

實驗和結果

我們進行了一系列實驗來評估ActiveStereoNet(ASN)。除了分析深度預測的準确性,并将其與以前的成果相比之外,我們還提供消融研究的結果,以研究拟損失的每個組成部分會對結果造成什麼影響。在補充材料中,我們還評估了我們提出的self-supervised loss 方法在passive (RGB) stereo中的适用性,該方案表現出更高的泛化能力,在許多基準測試中達到了令人印象深刻的結果。

雙目立體比對評估

在本節中,我們使用傳統的雙目立體比對名額(如抖動和偏差),定性、定量地将我們的方法在實際資料的實驗中與最先進的立體算法進行比較。

抖動與偏差

假設某立體聲系統的基線标準為b,焦距為f,子像素視差精度為δ,則視差精度的深度誤差e與深度Z的平方成正比。由于視差誤差對深度的影響是可變的,一些簡單的評估度量(如視差的平均誤差)不能有效地反映估計深度的品質。而我們的方法首先标出深度估計的誤差,然後計算視差中的相應誤差。

為了評估ASN的子像素精度,我們記錄了相機在平坦的牆壁前記錄的100幀圖像,相機距離牆壁的範圍從500毫米到3500毫米不等,還有100幀,然後讓相機成50度角朝向牆壁,再記錄100幀,用來評估傾斜表面上的圖像。在本例中,我們将得到的結果與高魯棒性的平面拟合獲得的“ground truth”進行對比評估。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

我們的方法的資料偏差降低了一個數量級,子像素精度為0.03像素,而且抖動非常低(參見文本)。我們還展示了距離牆壁3000毫米時,多種方案下預計出現的點雲。請注意,盡管距離較遠(3米),但其他方法相比,我們的結果噪音更低。

為了表示精度,我們将偏差計算為預測深度和真實值之間的平均誤差l1。圖5所示為關于我們所用的方法的深度偏差和傳感器輸出、現有最佳技術的局部立體化方法(PatchMatch,HashMatch),以及我們所使用的最先進的非監督式訓練出的模型,并對點雲做了表面法線着色處理的可視化操作。我們的系統在距牆壁全部距離上的性能都明顯優于其他方法,并且其誤差不會随着深度增加而顯着增加。我們系統對應的子像素視差精度為1/30像素,這是通過使用上述方程(也在圖5中給出)拟合曲線而獲得的。這比其他方法的精度(不高于0.2像素)精确一個數量級。

為了表示噪聲,我們将抖動(Jitter)計算為深度誤差的标準偏差。圖5表明,與其他方法相比,我們的方法在幾乎每個深度上都能實作最低的抖動。

與現有最優技術的比較

在具有挑戰性的場景中對ASN的更多定性評估如圖6所示。可以看出,像PatchMatch和HashMatch這樣的局部方法無法處理有源光和無源光的混合照明場景,是以會産生不完整的差異圖像(缺失像素顯示為黑色)。使用半全局方案的傳感器輸出更适合此類資料,但仍然容易受到圖像噪聲的影響(請注意第四列中的噪聲結果)。相比之下,我們的方法可以産生完整的視差圖并保留清晰的邊界。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

關于真實序列的更多例子如圖8(右)所示,其中我們給出了由表面法線着色的點雲。我們的輸出保留了所有細節,噪音很低。相比之下,我們使用自監督方法進行訓練的網絡産生了過度平滑的輸出。

ECCV18 | 谷歌普林斯頓提出首個端到端立體雙目系統深度學習方案

我們的結果也不存在紋理複制問題,這很可能是因為我們使用成本量來明确地對比對函數進行了模組化,而不是直接從像素密度中學習。即使訓練資料主要是從辦公室環境中捕獲的,我們仍然發現,ASN很好地涵蓋了各種測試場景,如起房間、遊戲室,餐廳和各式各樣的目标,比如人、沙發、植物、桌子等。具體如圖所示。

讨論、局限性和未來方向

我們在本文中介紹了ActiveStereoNet(ASN),這是第一種用于主動雙目立體成像系統的深度學習方法。我們設計了一個新的損耗函數來處理高頻模式,照明效果和像素遮擋的情況,以解決自我監督設定中的主動立體聲問題。我們的方法能夠進行非常精确的重建,子像素精度達到0.03像素,比其他有源立體比對方法精确一個數量級。與其他方法相比,ASN不會産生過于平滑的細節,可以生成完整的深度圖,保留有清晰的邊緣,沒有亂飛的像素。而失效網絡作為一個副産物,能夠得出可用于需要遮擋處理的進階應用的視差置信度圖。大量實驗顯示,使用NVidia Titan X顯示卡和最先進的方法,用于不同具有挑戰性場景的處理任務,每幀運作平均時間為15ms。

局限性和未來方向

盡管我們的方法産生了令人信服的結果,但由于成本量的低分辨率,仍然存在透明對象和薄結構的問題。在未來的工作中,我們将提出解決方案來處理更進階任務的實施案例,比如語義分割。

原文釋出時間為:2018-08-08

本文來自雲栖社群合作夥伴“

計算機視覺life

”,了解相關資訊可以關注“

繼續閱讀