天天看點

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

作者:3D視覺工坊

作者:Tianchen Deng | 編輯:計算機視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

1. 讀者個人了解

視覺同時定位與地圖建構(SLAM)一直是一個基礎的計算機視覺問題,具有廣泛的應用,如自動駕駛、遠端感覺和虛拟/增強現實。在過去的幾年中,許多傳統方法已經被引入,例如ORB-SLAM,VINS等。它們可以實時估計相機姿态并建構稀疏的點雲地圖,具有準确的定位性能。然而,稀疏的點雲地圖無法滿足機器人進一步的感覺需求。最近,注意力轉向了基于學習的密集場景重建方法。Kinectfusion,BAD-SLAM使用深度學習網絡重建了有意義的全局3D地圖,并顯示出合理但有限的重建精度。

如今,随着神經輻射場(NeRF)的提出,在不同領域出現了許多後續工作。ESLAM使用三平面以獲得更好的實時性能和重建精度。Co-SLAM使用聯合坐标和稀疏參數場景進行準确的場景表示。它們可以在一個小型室内房間中實作有希望的重建品質。盡管ESLAM和Co-SLAM在較小的室内場景中表現良好,但在表示大規模室内場景(例如多房較高價的電梯大廈)時面臨挑戰。實時增量NeRF-SLAM有幾個關鍵挑戰:a)場景表示能力不足:現有方法采用固定容量的全局模型,限制了對更大場景和更長視訊序列的可擴充性。b)誤差累積和姿态漂移:現有工作在大規模室内場景中的準确性和魯棒性方面存在困難,因為誤差會累積。

為此,這篇文章設計了用于大型室内場景和長序列的準确場景重建和魯棒姿态估計的神經SLAM系統。提出了一種漸進式場景表示方法,當相機移動到局部場景表示的邊界時動态初始化新的場景表示。整個場景被劃分為多個局部場景呈現,這可以顯着提高大型室内場景的場景表示能力。系統的魯棒性也得到增強,因為誤差估計是局部有界的。在局部場景表示中,提出了一種用于準确性、速度和未見區域完成的參數坐标聯合編碼方法。參數編碼是三平面編碼,坐标編碼是具有MLP的單斑點編碼。使用三平面來編碼場景的局部高頻特征,并使用MLP來表示具有内在一緻性先驗的全局低頻特征。PLGSLAM結合了兩種方法的優點,以在沒有觀察的區域中進行準确、平滑和填孔的重建。

此外,PLGSLAM将傳統的SLAM系統與端到端姿态網絡結合起來,以提高姿态估計性能。提出了一種局部到全局捆綁調整(BA)方法,可以消除在大規模室内場景和長視訊序列中明顯的累積誤差。到目前為止,所有的神經SLAM系統都隻使用端到端網絡,并從標明的關鍵幀的局部子集中采樣射線進行BA,導緻姿态估計不準确、不魯棒,以及錄影機跟蹤中的顯著累積誤差。PLGSLAM維護一個全局關鍵幀資料庫,并執行從局部到全局的神經拉伸和重投影捆綁調整。所提出的局部到全局BA方法可以消除所有曆史觀測中的累積誤差。在實踐中,PLGSLAM在錄影機跟蹤和3D重建方面實作了SOTA性能,同時保持了實時性能。

2. 導讀

最近,在密集視覺SLAM中,神經隐式場景表示已經顯示出令人鼓舞的結果。然而,當擴充到大型室内場景和長序列時,現有方法在場景重建和定位準确性方面表現出低品質。這些限制主要是由于它們具有有限容量的單一全局輻射場,不适應大型場景。它們的端到端姿态網絡在大型場景中累積誤差增長時也不夠健壯。為此,我們引入了PLGSLAM,一種神經視覺SLAM系統,能夠實時進行高保真度的表面重建和強健的相機跟蹤。為了處理大規模室内場景,PLGSLAM提出了一種漸進式場景表示方法,該方法動态配置設定新的局部場景表示,訓練的是在局部滑動視窗内的幀。這使我們能夠擴充到更大的室内場景,并提高了魯棒性(即使在姿态漂移下)。在局部場景表示中,PLGSLAM利用三平面進行局部高頻特征提取,用多層感覺器(MLP)網絡進行低頻特征提取,實作了未觀察區域的平滑和場景完整性。此外,我們提出了一種從局部到全局的捆綁調整方法,配合全局關鍵幀資料庫,以解決長序列上姿态漂移的增加。實驗結果表明,PLGSLAM在各種資料集和場景(無論是小型還是大型室内環境)中都實作了最先進的場景重建結果和跟蹤性能。

3. 效果展示

不同方法的大規模室内場景三維重建。描述了不同方法的最終網格和相機跟蹤軌迹誤差(絕對軌迹誤差)。右側的顔色條顯示了顔色的相對縮放。PLGSLAM在場景重建和姿态估計方面表現優異,超過了其他方法。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

4. 主要貢獻

(1)提出了一種漸進式場景表示方法,該方法動态啟動局部場景表示,該表示使用局部視窗内的幀進行訓練。這使得可擴充到廣泛的室内場景和長視訊序列,進而顯着提高了魯棒性。

(2)在局部場景表示中設計了一種聯合參數坐标編碼方法。将三平面與一blob編碼編碼方法相結合,以實作精确且平滑的表面重建。它不僅可以增強場景表示的能力,還可以将存儲器增長從立方體減少到平方。

(3)将傳統的SLAM系統與端到端姿态估計網絡內建在一起。提出了一種從局部到全局的捆綁調整算法,可以減輕大規模室内場景中的累積誤差。PLGSLAM在系統操作中維護一個全局關鍵幀資料庫,從局部到全局實作捆綁調整,涵蓋所有過去的觀察。

5. 基本原理是啥?

PLGSLAM有兩個并行線程:建圖線程和跟蹤線程。在建圖線程中,提出了整個場景的漸進式場景表示方法。在局部場景表示中,将三面體平面與多層感覺器相結合,以提高準确性和平滑性。它們都通過線上更新通過可微分渲染與系統操作來最小化精心設計的損失。至于跟蹤線程,提出了一個局部到全局的捆綁調整,用于準确和穩健的姿态估計。這兩個線程通過交替優化運作。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

這個圖示了設計的神經warp損失,計算關鍵幀I和關鍵幀I'之間的神經warp損失。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

6. 實驗結果

在 Replica較高價的電梯大廈資料集上的重建結果(不剔除)與基線相比,PLGSLAM在各種場景上實作了準确和高品質的場景重建和完成。圖像上用紅色标注的區域表示預測準确率較低,綠色表示較高準确率,黃色表示地面真實結果。圖像右下角的數字代表完成比例度量。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

Replica資料集。如表1所示,PLGSLAM實作了更高的重建和姿态估計精度,成功實作了一緻的完成以及高保真度的重建結果。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

Scannet資料集。評估了PLGSLAM在來自ScanNet的真實世界大型房間序列(近7.5m×6.6m×2.7m)上的錄影機跟蹤和重建結果。表2顯示,與NICE-SLAM,ESLAM和Co-SLAM相比,PLGSLAM在姿态估計和表面重建結果方面取得了更好的結果,展示了優越的場景表示能力,并在大型室内場景中表現出更準确和更穩健的跟蹤性能。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

Apartment資料集。表3顯示,定量上,與Co-SLAM和ESLAM相比,PLGSLAM實作了SOTA跟蹤結果。這些算法通常在大規模室内資料集場景中表現出顯著的累積誤差。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

平均幀處理時間(FPT)和記憶體增長率對比,PLGSLAM比以前的方法更快,并且模型大小不會随着場景長度呈立方增長。

CVPR'24 | PLGSLAM:大型室内場景如何提高定位精度和建圖品質?

7. 總結

這篇文章提出了一種新穎的密集SLAM系統PLGSLAM,在大型室内場景中實作準确的表面重建和姿态估計。漸進式場景表示方法使PLGSLAM能夠表示大規模室内場景和長視訊。三平面和多層感覺器的聯合編碼方法進一步提高了局部場景表示的準确性。局部到全局的捆綁調整方法将傳統SLAM方法與端到端姿态估計結合起來,實作了穩健而準确的錄影機跟蹤,并減輕了累積誤差和姿态漂移的影響。

8. 參考

[1] PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment

計算機視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺學習知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀