天天看點

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

作者:3D視覺工坊

作者:Xingguang Zhong | 編輯:計算機視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

0. 讀者個人了解

使用LiDAR或RGB-D攝像頭進行建圖,是計算機視覺和機器人技術中的基本任務。通常,我們希望獲得準确的地圖,以支援諸如定位、規劃或導航等下遊任務。為了實作對室外環境的準确重建,我們必須考慮由移動物體(如車輛或行人)引起的動态。此外,動态物體去除在自動駕駛和機器人應用中扮演着重要角色,用于建立數字雙生體以進行逼真的模拟和高清地圖繪制,其中靜态地圖與語義和任務相關資訊相結合。

在動态環境中的映射和狀态估計是機器人技術中的經典問題。同時定位與建圖(SLAM)的方法可以采用不同的政策來處理動态。常見的方式包括:(1)從輸入中濾除動态作為預處理步驟,這需要對場景進行語義解釋;(2)對地圖表示中的占用進行模組化,在自由空間中回顧性地移除測量,進而可以隐式地去除動态;(3)将其包含在狀态估計中,以模拟來自環境的動态和靜态部分的測量的起源。我們提出的方法屬于最後一類,并允許我們直接在地圖表示中對動态進行模組化,進而導緻時空地圖表示。

最近,隐式神經表示在計算機視覺中引起了越來越多的關注,用于新視角合成和3D形狀重建。由于其緊湊性和連續性,一些方法探讨了在大規模3D LiDAR映射中使用神經表示,進而實作準确的地圖同時顯著減少記憶體消耗。然而,這些方法通常沒有解決映射過程中處理動态的問題。動态NeRF和神經可變形物體重建的最新進展表明,神經表示也可以用于表示動态場景,這啟發了我們從4D重建的角度解決動态環境中的映射問題。

在本文中,我們提出了一種新方法,通過将每個點的時間依賴截斷有符号距離函數(TSDF)編碼到隐式神經場景表示中來重建大型4D動态場景。我們将依次記錄的LiDAR點雲收集在動态環境中作為輸入,并為每個時間幀生成一個TSDF,可以使用Marching Cubes提取網格。整個序列期間不變的背景TSDF可以很容易地從4D信号中提取。我們将其視為可以用于從原始點雲中分割動态對象的靜态地圖。與傳統的基于體素的映射方法相比,連續的神經表示允許去除動态對象同時保留豐富的地圖細節。

2. 導讀

建構準确地圖是實作可靠定位、規劃和自主車輛導航的關鍵構模組化塊。我們提出了一種新穎的方法,利用一系列LiDAR掃描來建構動态環境的準确地圖。為此,我們提出将4D場景編碼成一種新穎的時空隐式神經地圖表示,通過對每個點拟合時間依賴的截斷有符号距離函數來實作。使用我們的表示,我們通過過濾動态部分來提取靜态地圖。我們的神經表示基于稀疏特征網格、全局共享解碼器和時間依賴基函數,這些基函數我們以非監督方式聯合優化。為了從一系列LiDAR掃描中學習這種表示,我們設計了一個簡單而高效的損失函數,以分段方式監督地圖優化。我們評估了我們的方法在包含移動物體的各種場景中的性能,評價名額包括靜态地圖的重構品質和動态點雲的分割。實驗結果表明,我們的方法能夠移除輸入點雲的動态部分,同時重建準确完整的3D地圖,優于幾種最先進的方法。

3. 效果展示

給定一系列點雲,如圖(a)所示,我們優化我們的四維神經表示,可以在任意位置查詢特定時間的值。基于估計的時間相關TSDF值,我們可以在特定時間點提取網格。此外,我們的四維神經表示也可用于靜态映射(c)和動态物體去除(c)。

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

針對KITTI資料集的重建TSDF:子圖(a)和(b)是輸入的相鄰幀。相應地,(c)和(d)是從我們的4D地圖中查詢的水準TSDF切片。請注意,我們僅顯示小于0.3m的TSDF值。

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

4. 主要貢獻

  • 我們提出了一種新的隐式神經表示,以序列LiDAR掃描作為輸入,共同重建動态3D環境并保持靜态地圖。
  • 我們采用分段訓練資料采樣政策,并設計了一個簡單但有效的損失函數,通過梯度限制來保持靜态點監督的一緻性。
  • 我們通過動态對象分割的準确性和重建靜态地圖的品質來評估映射結果,表現出優于幾個基準的性能。我們提供了用于實驗的代碼和資料。

5. 基本原理是啥?

我們的四維TSDF表示原理:左圖展示了一個移動物體和一個查詢點p。右圖描述了随時間變化在點p處的相應符号距離。在t0時刻,p的符号距離是一個正的截斷值。當移動物體在t1時刻到達p時,p位于物體内部,其符号距離相應為負值。在t2時刻,移動物體經過p後,p的符号距離再次變為正值。

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

在我們的4D地圖表示中查詢TSDF值的概述。對于查詢位于ti和ti+1處的點p,我們首先檢索p所在的體素的Fl中每個角點的特征,并通過三線性插值獲得融合特征fp。然後,我們将fp輸入解碼器Dmlp,并将輸出作為不同基函數ϕ1(t),...,ϕK(t)的權重。最後,我們計算在ti和ti+1處基函數值的權重和,以獲得它們各自的SDF結果。為簡單起見,我們僅說明了一個級别的哈希特征網格。

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

6. 實驗結果

在 Tab. 2 和 Tab. 3 中分别呈現了 ToyCar3 合成資料集和現實世界資料集 Newer College 的定量結果。關于準确性,SHINE-mapping 和 VDB-Fusion 可以通過多幀融合濾除部分高頻噪聲,進而在嘈雜的 Newer College 資料集上表現更好。相比之下,我們的方法将每個掃描都視為準确的,以存儲 4D 資訊,這使其對測量噪聲更為敏感。在 ToyCar3 資料集上,我們的方法和 VDB-Fusion 都成功消除了所有移動物體。然而,在 Newer College 資料集上,VDB-Fusion 錯誤地消除了靜态樹木和部分地面,導緻 Tab. 3 中顯示的完整性較差。SHINE-mapping 消除了 Newer College 資料集上的動态行人,但保留了 ToyCar3 資料集上的一部分動态點雲,後者具有較大比例的動态對象,導緻 Tab. 2 中的準确性較差。NKSR 的準确性最差,因為它無法消除動态對象,這意味着直接在動态實景中應用 NKSR 不适合。

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!
CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

動态對象分割的定量結果顯示在 Tab. 4 中。我們可以看到,我們的方法在三個自動駕駛序列(KITTI 00、KITTI 05、Argoverse2)中實作了最佳關聯準确度(AA),遠遠優于基線。基于監督學習的方法 4DMOS 和 MapMOS 由于泛化能力有限而無法獲得良好的動态準确度(DA)。Erasor 和 Octomap 傾向于過度分割動态對象,導緻靜态準确度(SA)較差。Removert 和 SHINE-mapping 過于保守,無法檢測到所有動态對象。得益于 4D 神經表示的連續性和大容量,我們在保留靜态背景點和移除動态對象之間取得了更好的平衡。值得再次提到的是,我們的方法不依賴于任何預處理或後處理算法,如地面拟合、離群值過濾和聚類,也不需要訓練标簽。

CVPR'24開源 | 波昂大學提出動态環境下的3D LiDAR建圖新方案!

7. 總結 & 局限性

在本文中,我們提出了一種用于動态場景的 4D 隐式神經地圖表示,使我們能夠表示場景的靜态部分和動态部分的 TSDF。為此,我們使用分層體素特征表示,然後将其解碼為基函數的權重,以表示可以在任意位置查詢的時變 TSDF。為了從 LiDAR 掃描序列中學習表示,我們設計了有效的資料采樣政策和損失函數。配備了我們提出的表示,我們通過實驗證明,我們能夠解決靜态映射和動态對象分割的挑戰性問題。具體來說,我們的實驗表明,我們的方法能夠準确重建場景的靜态部分的 3D 地圖,并同時完全移除移動對象。

局限性。雖然我們的方法取得了令人信服的結果,但我們必須承認,我們目前依賴于由單獨的 SLAM 方法估計的姿态,也不能以線上方式應用我們的方法。然而,我們認為這是未來研究聯合增量映射和姿态估計的一條途徑。

8. 參考

[1] 3D LiDAR Mapping in Dynamic Environments Using a 4D Implicit Neural Representation

計算機視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺學習知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。