天天看點

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

作者:3D視覺工坊

1、讀者了解

随着神經輻射場(NeRF)的出現,神經隐式表示在各個領域得到了廣泛應用,包括同時定位與地圖建構。然而,目前的神經隐式SLAM面臨着參數數量與性能之間的挑戰性權衡問題。為了解決這個問題,本文提出了稀疏三平面編碼,它僅使用2~4%的正常三平面參數(從100MB減少到2~4MB),就可以高效地實作高達512分辨率的場景重建。在此基礎上,本文設計了S3-SLAM,通過稀疏化平面參數并整合三平面的正交特征,實作了快速且高品質的跟蹤與映射。此外,本文開發了分層捆綁調整,以實作全局一緻的幾何結構和高分辨率的外觀重建。實驗結果表明,本文的方法在三個資料集上以最小參數實作了競争性的跟蹤和場景重建。

2、論文資訊

标題:S3-SLAM: Sparse Tri-plane Encoding for Neural Implicit SLAM

作者:Zhiyao Zhang等人

機關:Northeastern University

論文:https://arxiv.org/pdf/2404.18284

3、主要貢獻

稀疏三平面編碼:該方法通過使用哈希網格對正交平面特征進行稀疏化,顯著減少了模型記憶體消耗,以應對神經隐式表示中參數數量與重建品質之間的權衡挑戰。

S3-SLAM:基于稀疏三平面編碼,作者開發了S3-SLAM方法,該方法實作了快速疊代和參數稀疏化,進而實作準确的相機姿态估計和場景重建。通過引入多分辨率稀疏三平面來表示複雜場景,僅需2∼4%的正常三平面參數,即可實作更高分辨率的表示。

分層捆綁調整:在S3-SLAM中,作者設計了分層捆綁調整方法,用于精煉局部外觀并確定全局幾何一緻性,進而實作高品質的外觀重建和準确的姿态估計。

實驗結果:實驗結果表明,S3-SLAM使用最小參數和疊代次數,實作了準确和穩健的相機跟蹤,并同時實作了高保真的場景重建。

4、緊湊高效的場景表示

本文提出了一個緊湊高效的稀疏三平面編碼,以解決神經隐式表示在參數數量和重建品質之間的權衡問題。稀疏三平面編碼通過使用哈希網格對正交平面特征進行稀疏化,顯著減少了模型記憶體消耗。

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

本文建立了三個互相正交的平面,并将3D點投影到這些平面上,然後對這些投影點應用稀疏參數編碼。目前,多分辨率哈希編碼和排列格哈希編碼是稀疏參數編碼中的流行技術。如圖2所示,在稀疏化設計中,多分辨率哈希編碼可以生成更平滑的表面。是以,本文用2D正方形哈希網格平面、、表示投影平面。當哈希網格平面頂點的索引x時,本文通過哈希函數獲得頂點索引:

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

空間哈希函數将頂點索引映射到一個長度為2T的哈希表中,限制需要更新的頂點最大數量,進而實作單平面稀疏編碼。具體來說,本文的稀疏三平面編碼通過2D哈希網格平面對3D點的投影點、、進行編碼。之後,本文将這些編碼特征串聯起來,得到最終稀疏三平面編碼:

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

此外,由于哈希表能夠有效維護特征,本文成功地增強了稀疏三平面編碼的緊湊性,同時實作了三平面的稀疏特征表示。稀疏三平面編碼使神經網絡更容易捕捉高頻幾何和外觀。

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

本文設計了一個多分辨率稀疏三平面編碼,以更有效地表示複雜場景。受多分辨率哈希編碼的啟發,如圖3所示,本文使用多級2D哈希網格平面和分辨率增長因子建構多分辨率三平面。随後,本文對每個三平面應用本文的稀疏三平面編碼,并将結果特征串聯起來,實作了多分辨率稀疏三平面編碼。這種方法使得本文的場景表示能夠融合多級特征,有效地表示精細的外觀和幾何。為了重建高品質的場景,本文使用兩個多分辨率稀疏三平面編碼來分别編碼場景的幾何和外觀,雖然犧牲了一些速度,但確定了更準确的外觀重建。

由于本文的表示稀疏,本文使用小型多層感覺器作為解碼器。本文的解碼器架構由SDF解碼器和顔色解碼器組成。SDF解碼器具有兩個隐藏層,每層包含32個神經元和ReLU作為非線性激活函數。類似地,本文使用相同的配置來配置顔色解碼器,唯一的差別是在輸出層添加了Sigmoid激活函數。小型多層感覺器的應用確定了本文的方法不會顯著增加參數數量。解碼器将本文的多分辨率稀疏三平面編碼解碼為外觀和準确的TSDF表示。

5、顔色和幾何渲染

給定相機中心和方向,本文沿着射線,擷取樣本點,其中ti是選擇的采樣距離。在采樣距離的選擇上,NeuS采用了分層采樣方法,可以獲得精确的表面重建,但計算開銷較大。而Instant-NGP采用了均勻采樣和逆空間變換,适用于無界場景,但不太适合重建表面網格。本文在這兩種采樣方法之間取得平衡,并采用了深度引導采樣。

将深度觀察視為表面,在範圍内均勻采樣三分之二點,以確定在表面附近有足夠的訓練。将剩下的三分之一的射線進行均勻采樣,以減少空區域中的僞影。其中tr表示TSDF的截斷距離,是一個超參數。通過深度引導采樣方法,可以確定在表面附近有足夠多的訓練樣本,同時避免在空區域中采樣過多,進而平衡表面細節和空區域渲染。

對于相機中心o和方向d,沿射線r=o+tid采樣M個點,其中ti表示采樣距離。通過解碼器預測每個采樣點的顔色ci和SDF si。計算每個采樣點的權重wi,并将其應用于顔色和深度的權重平均。定義渲染的顔色Cr和深度Dr,并計算與真實值之間的MSE損失。通過将渲染顔色、深度和SDF與真實值進行比較,并計算MSE損失,可以得到顔色損失Lc、深度損失Ld和SDF損失Lsdf。通過對上述損失進行權重,得到最終的損失函數L。

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

5、跟蹤和映射

本文的跟蹤獨立運作,無需依賴束調整(Bundle Adjustment, BA)。跟蹤利用恒速運動模型初始化相機姿态。本文的跟蹤通過最小化渲染圖像和真實圖像之間的均方誤差,并通過梯度反向傳播來減小RGB-D點雲與幾何表面之間的最短距離(即預測的SDF),進而更新相機姿态。

給定預測的目前相機姿态Tcur、前一參考關鍵幀Tref的姿态,以及相機内參K,本文根據圖像幀之間的投影關系來确定關鍵幀序列。具體來說,本文将目前幀的像素ucur反向投影到世界坐标系,然後将其投影到前一個參考關鍵幀的像素uref。

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

随後,本文排除不在标準化圖像坐标範圍内的點。如果成功投影到參考關鍵幀像素平面上的點的比例低于本文選擇的門檻值,本文将目前幀識别為關鍵幀。

本文設計了一個分層束調整(HBA)方法,以提高外觀品質,確定全局結構一緻性,同時重建高分辨率的場景外觀。在HBA的每次疊代中,本文從小部分關鍵幀中采樣少量射線,以保持全局一緻性。為了確定局部一緻性,本文建立了一個局部滑動視窗,從滑動視窗内的關鍵幀中采樣更多射線,以徹底估計局部相機姿态,并重建精細級别的場景幾何和外觀。

在S3-SLAM中,全局樣本射線占總樣本射線的10%,而局部樣本射線的數量是根據每個關鍵幀的最佳損失進行權重的。本文確定滑動視窗内所有關鍵幀的權重損失之和歸一化為1。此外,為了防止本文的采樣政策過度受訓練損失的影響,可能導緻局部發散,本文為每個幀設定了一個最小的采樣射線比例,即總射線的10%。這種政策確定了損失較高的幀獲得更多的訓練重點,提高了局部外觀細節的精度,同時減少了訓練發散對采樣政策的影響。

6、實驗結果

實驗設定:作者在三個資料集上評估了S3-SLAM方法,包括一個合成資料集Replica,以及兩個真實資料集ScanNet和TUM RGB-D。Replica包含8個場景,ScanNet包含6個場景,而TUM RGB-D包含3個場景,場景之間具有顯著的旋轉和深度噪聲。ScanNet的地面真值姿态來源于BundleFusion,而TUM RGB-D的地面真值則來自運動捕捉系統。

跟蹤和重建評估:在Replica資料集上,作者評估了重建性能。結果顯示,所提出方法在疊代次數較少的情況下獲得了最高品質的重建效果。在ScanNet資料集上,作者跟蹤性能優于現有神經隐式SLAM方法。在TUM RGB-D資料集上,作者的跟蹤結果也表現出競争力。稀疏三平面編碼的有效性:作者進行了全局幾何一緻性和參數效率方面的實驗,證明了所提出的稀疏三平面編碼的有效性。

性能分析:作者對方法進行了性能分析,展示了疊代速度和參數數量的優勢。

消融實驗:作者進行了消融實驗,證明了稀疏三平面編碼和分層束調整的有效性。

東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建
東北大學 | 神經隐式SLAM SOTA:參數減少30倍,高品質場景重建

作者通過在多個資料集上的實驗,驗證了所提出方法在跟蹤、重建和參數效率方面的優勢。實驗結果表明,該方法可以有效地實作高品質的跟蹤和重建,同時具有較小的參數數量和較快的疊代速度。

7、總結

本文介紹了一種名為S3-SLAM的神經隐式SLAM方法,該方法利用稀疏三平面編碼進行場景表示,實作了在參數數量和重建品質之間的高效平衡。具體來說,S3-SLAM采用了稀疏參數編碼技術,将三維點投影到三個正交平面上,并使用稀疏的二維哈希網格平面表示這些平面。通過多層哈希網格,該方法能夠有效地表示場景的幾何和外觀資訊,同時大大減少了參數數量。為了實作高品質的局部重建,S3-SLAM采用了分層束調整方法,在全局保持幾何一緻性的同時,實作了高分辨率的局部幾何和外觀重建。在Replica、ScanNet和TUM RGB-D三個資料集上的實驗結果表明,該方法在參數數量較少的情況下,實作了與其他方法相媲美甚至更優的跟蹤和重建效果。總的來說,S3-SLAM在參數數量和重建品質之間取得了良好的平衡,為神經隐式SLAM提供了一種有效的場景表示方法。

本文僅做學術分享,如有侵權,請聯系删文。

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

繼續閱讀