天天看點

NeuralRecon:單目視訊的實時Coherent 三維重建

标題:NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video

作者:Jiaming Sun Yiming Xie Linghao Chen Xiaowei Zhou Hujun Bao

機構:Zhejiang University ,SenseTime Research

編譯:萬應才 

稽核: Yiru

摘要

NeuralRecon:單目視訊的實時Coherent 三維重建

大家好,今天為大家帶來的文章是   Estimating Motion Codes from Demonstration End-to-End Video Instance Segmentation with TransformersVideos。

本文提出了一種新的基于單目視訊的實時三維場景重建架構NeuralRecon。與以往在每個關鍵幀上分别估計單視點深度圖并進行融合的方法不同,本文提出了用神經網絡直接為每個視訊片段重建局部表面,表示為稀疏的TSDF體。基于學習的TSDF融合子產品基于選通遞歸單元,用于指導網絡融合先前片段的特征。這種設計使得網絡能夠在連續重構三維曲面時,獲得曲面的局部光滑性先驗和全局形狀先驗,進而實作精确、一緻、實時的曲面重構。在ScanNet和7場景資料集上的實驗表明,我們的系統在精度和速度上都優于現有的方法。據我們所知,這是第一個基于學習的系統,能夠實時重建密集的Coherent三維幾何體。

Code :  https://zju3dv.github.io/neuralrecon/

NeuralRecon:單目視訊的實時Coherent 三維重建

圖1 VisTR 整體架構.該模型以一系列圖像作為輸入,輸出一系列執行個體預測。在這裡,相同的形狀表示一個圖像中的預測,相同的顔色表示同一對象執行個體的預測。請注意,總體預測遵循輸入幀順序,不同圖像的對象預測順序保持相同(最好在螢幕上檢視)

NeuralRecon:單目視訊的實時Coherent 三維重建

主要工作與貢獻

NeuralRecon:單目視訊的實時Coherent 三維重建

本文介紹了一種新的單目視訊實時三維重建系統NeuralRecon。其核心思想是利用三維稀疏卷積和GRU算法,對每個視訊片段的稀疏TSDF體進行增量聯合重構和融合。這種設計使NeuralRecon能夠實時輸出精确的相幹重建。實驗表明,NeuralRecon在重建品質和運作速度上都優于現有的方法。利用NeuralRecon重建的稀疏TSDF體可以直接用于三維目标檢測、三維語義分割和神經渲染等下遊任務。我們相信,通過與下遊任務端到端的聯合訓練,NeuralRecon為基于學習的多視角感覺和識别系統提供了新的可能性。

NeuralRecon:單目視訊的實時Coherent 三維重建

算法流程

NeuralRecon:單目視訊的實時Coherent 三維重建

1.整體架構

本文提出了一種新的單目實時經濟結構的新架構NeuralReco,該架構将三維幾何體直接重建和融合到體積TSDF表示中。給定由SLAM系統估計的一系列單目圖像及其相應的相機姿态,NeuralRecon在獨立于視圖的三維體中增量重建局部幾何體,而不是依賴于視圖的深度圖。具體地說,它取消圖像特征以形成三維特征體積,然後使用稀疏卷積處理特征體積以輸出稀疏TSDF體積。通過從粗到精的設計,預測的TSDF在每個層次上逐漸細化。通過直接重建隐式曲面(TSDF),網絡能夠在自然三維曲面之前學習局部平滑度和全局形狀。

與基于深度的方法分别預測每個關鍵幀的深度圖不同,在NeuralRecon中聯合預測局部碎片視窗内的表面幾何,進而産生局部Coherent幾何估計。

NeuralRecon:單目視訊的實時Coherent 三維重建

圖2NeuralRecon architecture..NeuralRecon采用三級從粗到精的方法預測TSDF,該方法逐漸增加稀疏體素的密度。首先将局部片段中的關鍵幀圖像通過圖像主幹提取多級特征。這些圖像特征随後沿每條光線反向投影,并聚合成三維特征體積Flt,其中l表示水準索引。在第一層(l=1),預測了一個稠密的TSDF體積S 1t。在第二級和第三級,最後一級的上采樣S l−1t與Flt相連,并用作GRU Fusion和MLP子產品的輸入。在世界架構中定義的特征體積作為GRU的全局隐藏狀态在每個級别上進行維護。在最後一級,輸出Slt用于替換全局TSDF體積sgt中的相應體素,進而在時間t産生最終重建。

2.方法

給定SLAM系統提供的單目圖像序列{It}和相機姿态軌迹{It}∈SE(3),目标是實時準确地重建稠密的三維場景幾何。我們将要重建的全局TSDF體積表示為S(g/t),其中t表示目前時間步長。

NeuralRecon:單目視訊的實時Coherent 三維重建

圖3 2D玩具的例子來說明unprojection,GRU fusion and sparse TSDF representation.

2.1關鍵幀選擇

為了提供足夠的運動視差,同時保持多視點共視重建,所選關鍵幀之間既不能太近也不能太遠。在之後,如果一個新的傳入幀的相對平移大于t[max]并且相對旋轉角度大于R[max],則選擇該幀作為關鍵幀。具有N個關鍵幀的視窗被定義為一個局部片段。選擇關鍵幀後,在每個視圖中使用固定的最大深度範圍dmax計算包圍所有關鍵幀視錐的立方體碎片邊界體積(FBV)。在重建每個片段時,隻考慮FBV内的區域。

2.2拼接片端重建與融合

我們建議同時重建局部片段S[l\t]的TSDF體積,并使用基于學習的方法将其與全局TSDF體積sgt融合。關節重建和融合是在局部坐标系下進行的。補充材料圖1中說明了局部坐标系和全局坐标系的定義以及FBV的構造。

Image Feature Volume Construction.

根據每個體素的可見度權重對不同視圖的特征進行平均,得到圖像特征體積Flt。可見性權重定義為在局部片段中可以觀察到體素的視圖數。

Coarse-to-fine TSDF Reconstruction

我們采用從粗到精的方法,逐漸細化每個級别的預測TSDF體積。我們使用三維稀疏卷積來有效地處理特征體F(lt)。稀疏體積表示也自然地與從粗到精的設計相結合。具體來說,TSDF volume Slt中的每個體素包含兩個值,占用率得分o和SDF值x。在每個級别上,MLP預測o和x。占用分數表示在TSDF截斷距離λ内的體素的置信度。将占位分數小于稀疏門檻值θ的體素定義為空洞空間,并進行稀疏化。

NeuralRecon不是為每個關鍵幀估計單個視圖深度圖,而是在局部片段視窗的邊界體積内聯合重建隐式曲面。該設計指導網絡直接從訓練資料中學習自然曲面的先驗知識。結果表明,重構後的曲面局部光滑,尺度一緻。值得注意的是,與基于深度的方法相比,這種設計還減少了備援計算,因為在碎片重建過程中,三維表面上的每個區域僅估計一次。

GRU Fusion

為了使片段間的重建保持一緻,我們建議将目前片段的重建建立在先前片段重建的基礎上。為此,我們使用了門控遞歸單元(GRU) 子產品的3D卷積變體。如圖3 所示,在每一級,圖像特征體積Flt首先通過3D稀疏卷積層以提取3D幾何特征Glt。從碎片邊界體積内的全局隐藏狀态Hgt−1中提取隐藏狀态Hlt−1。GRU将Glt與隐藏狀态Hlt−1融合,并生成更新的隐藏狀态Hlt,該Hlt将通過MLP層來預測該級别的TSDF卷Slt。通過直接替換相應的體素,将隐藏狀态Hlt更新為全局隐藏狀态Hgt。

NeuralRecon:單目視訊的實時Coherent 三維重建

Integration to the Global TSDF Volume

在最後的粗到精階段,對S[3\t]進行了預測,并進一步稀疏到S[l\t]。由于在GRU融合中Slt與Sgt的融合是通過變換到全局坐标系後直接替換相應的體素來實作的。在每個時間步t,在Sgt上執行行進立方體來重建網格。

NeuralRecon:單目視訊的實時Coherent 三維重建

實驗結果

NeuralRecon:單目視訊的實時Coherent 三維重建
NeuralRecon:單目視訊的實時Coherent 三維重建

圖3 3D geometry metrics on ScanNet 我們使用兩種不同的訓練/驗證劃分,分别是Atlas[30](頂部塊)和BA Net[42](底部塊)。我們在補充材料中闡述了單層和雙層的含義。

NeuralRecon:單目視訊的實時Coherent 三維重建

圖4 2D depth metrics on ScanNet 我們使用兩種不同的教育訓練/驗證劃分,分别遵循Atlas[30](頂部塊)和BA Net

NeuralRecon:單目視訊的實時Coherent 三維重建

圖5 Qualitative results on ScanNet.與基于深度的方法相比,NeuralRecon可以産生更多的Coherent重建結果。請注意,與Atlas[30]相比,我們的方法還恢複了更清晰的幾何圖形,這說明了我們方法中局部片段設計的有效性。僅在局部片段視窗内重建,避免了将來自遠處錄影機視圖的無關圖像特征融合到三維體中。該顔色表示曲面法線。

NeuralRecon:單目視訊的實時Coherent 三維重建

圖6 Ablation study

繼續閱讀