天天看點

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

簡介:這篇文章的創新之處在于打破傳統的無監督深度估計時需要用雙目圖檔進行自監督,sfm-net隻需要單目的視訊流就能夠恢複深度圖、點雲圖、相機姿态估計、場景運動剛體姿态估計、場景運動剛體mask。總之是一個非常強大的網絡。

本文主要對sfm-ne論文的摘要以及網絡結構進行解讀,實作細節與實驗分析有興趣的可以下全文去讀一下。

一.摘要

1.本文提出了SFM-NET:感覺幾何神經網絡;按照場景與物體深度、相機移動與3D物體旋轉平移将視訊中幀與幀之間的像素移動拆解。

2.stm-net能夠預測深度、分割、相機與剛體運動,并将其轉換為幀與幀之間的移動場

1)預測深度;

2)預測相機運動:計算出兩幀圖像之間,相機的旋轉與移動;

3)分割:将場景中的運動物體分割出來(以mask的形式)

3.SFM-Net有三種訓練模式:1)無監督;2)相機運動監督;3)深度圖像監督。

二.基于學習的SFM

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

2.1sfm-net 結構

單幀圖像用于估計深度

成對圖像用于估計相機運動與剛體運動

1.光流場的估計:

step1:利用輸入單幀圖檔+估計深度值+相機内參 獲得點雲圖Pt。

step2:基于相機和物體的剛體變換(相機移動+剛體移動)轉換點雲圖Pt,得到點雲圖Pt+1

step3:将轉換後的點雲圖Pt+1的坐标進行反向二維投影,獲得圖檔imgt+1

step4:點雲圖Pt的坐标反向二維投影得到的圖檔為imgt,根據img+imgt或者光流場

2.利用可微warp,将It+1映射為It3.前向-後向限制:

通過估計場景的運動:1)重複It+1→It的映射過程;2)限制dt與dt+1的一緻性。

2.1.1 深度圖像dt與前幀(It)點雲

輸入為It時刻的單幀圖像

1.利用标準的conv/deconv網絡計算對單幀圖像進行深度估計

2.利用小孔相機成像模型+估計深度圖dt+原圖檔It恢複點雲;點雲坐标公式如下:

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

其中(cx,cy,f)為相機内參

2.1.2 場景運動

輸入為成對圖像It與It+1,輸入兩張圖檔時,将圖檔通道concatenate在一起作為一個整體輸入

1.利用conv/deconv網絡估計相機運動與場景中剛體運動

2.網絡的bottleneck部分連接配接2個FC layer去預測相機運動與場景物體運動。

3.模組化相機運動的公式:

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

4.模組化場景剛體運動公式:

針對場景中K個不同的剛體,其旋轉與平移公式的模組化與相機相同,并且都是通過FC進行估計。

5.估計的相機運動與物體運動公式的應用範圍:1)相機運動适用于所有像素點;2)物體運動的公式需要進行權重處理後應用于像素點。權值的大小正比于該像素點屬于此剛體的機率mtk。

6.運動物體mask估計:

1)網絡conv/deconv後的輸出,就是mask。其中shape(mask) = [h,w,K]。mask的k通道的像素值代表此像素屬于運動剛體k的機率值。

2)我們允許一個像素屬于多個剛體。

3)K的大小可以随意設定,經驗值為K = 3.本文的方法可以忽略不明顯的物體運動

2.1.3 光流估計

光流場擷取步驟:

step1:利用輸入單幀圖檔+估計深度值+相機内參 獲得點雲圖Pt。

step2:基于相機和物體的剛體變換(相機移動+剛體移動)轉換點雲圖Pt,得到點雲圖Pt+1

step3:将轉換後的點雲圖Pt+1的坐标進行反向二維投影,獲得圖檔imgt+1

step4:點雲圖Pt的坐标反向二維投影得到的圖檔為imgt,根據img+imgt或者光流場

1.先利用運動物體公式進行點雲坐标轉換

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

2.在利用運動相機進行點雲坐标轉換,得到Pt+1

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

3.對Pt+1進行反向投影,獲得imgt+1

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

4.利用imgt與imgt+1獲得光流場

論文研讀:2017 SfM Net Learning of Structure and Motion from Video

繼續閱讀