天天看點

中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建

作者:3D視覺工坊

作者:Chenyang Wu|編輯:計算機視覺工坊

添加小助理:dddvision,備注:3D目标檢測,拉你入群。文末附行業細分群

中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建

标題:MM-Gaussian: 3D Gaussian-based Multi-modal Fusion for Localization and Reconstruction in Unbounded Scene

連結:https://arxiv.org/pdf/2404.04026.pdf

1、介紹

這篇文章介紹了一個名為MM-Gaussian的多傳感器融合SLAM方法,旨在實作無界場景下的定位和重建。該方法利用Livox固态雷射雷達和相機擷取場景資料,并采用3D高斯點雲進行地圖建構,同時渲染高品質圖像。文章詳細闡述了跟蹤、重定位、地圖擴充和更新等四個主要子產品,其中特别設計了一個重定位子產品以糾正定位失敗導緻的軌迹偏移。實驗結果表明,該方法在定位和映射方面優于基于3D高斯點的SLAM方法。綜合而言,文章通過多傳感器融合實作無界場景下的高精度定位和地圖建構,具有較強的魯棒性。

中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建

2、MM-Gaussian主要包含那些元件?

中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建

根據文檔,MM-Gaussian系統包含以下四個主要元件:

**跟蹤(Tracking)**:利用點雲配準算法獲得初始姿态估計,并通過比較渲染圖像和實際圖像來優化姿态估計。

**重定位(Relocalization)**:檢測跟蹤失敗,并利用3D高斯渲染圖像的能力将姿态重新定位到正确的軌迹。

**地圖擴充(Map Expansion)**:将目前幀的點雲轉換成3D高斯點并添加到地圖中,以擴充地圖。

**地圖更新(Map Updating)**:利用圖像關鍵幀序列優化3D高斯點的屬性,以獲得更好的渲染效果。

3、MM-Gaussian系統中的重定位子產品是如何工作的?

中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建

主要工作流程如下:

跟蹤失敗檢測:通過計算每個幀的損失函數,并與預設的門檻值θfail進行比較。當損失超過門檻值時,系統将進入跟蹤失敗狀态。

擷取參考姿态:在跟蹤失敗時,系統會回退到前m幀,并擷取這m幀的相機姿态作為參考姿态。

"look-around"操作:固定參考姿态的平移部分,在旋轉部分進行均勻采樣,生成n個新的姿态。

渲染參考姿态圖像:基于n個新姿态,渲染對應的RGB、深度和輪廓圖像。

特征提取和比對:利用SuperPoint提取目前幀的特征,并與n個渲染的RGB圖像進行特征比對,選擇比對點數最多且超過門檻值θfeature的圖像作為候選。

PnP解算:基于候選圖像的相機姿态,将渲染的深度圖反投影到3D空間,利用特征對應關系求解目前幀的相機姿态。

重新渲染和評估:基于計算出的目前幀姿态,重新渲染RGB、深度和輪廓圖像,并計算損失。若損失低于門檻值θfail,則認為重定位成功。

恢複跟蹤和地圖建構:跟蹤、地圖擴充和更新子產品恢複工作,丢棄跟蹤失敗期間的資料。

綜上所述,重定位子產品通過參考姿态和look-around操作找到正确軌迹,并利用渲染圖像和特征比對恢複跟蹤,進而提高系統的魯棒性。

4、在MM-Gaussian系統中,映射階段的目标是什麼?

在MM-Gaussian系統中,映射階段的目标是更新3D高斯點的屬性,以實作更逼真的渲染效果。具體而言,在映射階段,系統會進行以下操作:

選擇關鍵幀:從關鍵幀序列中選擇k-2個與目前幀最相關的關鍵幀,以及目前幀和最新關鍵幀,進行優化。

渲染圖像:根據選中的關鍵幀姿态,渲染出RGB圖像。

計算損失函數:根據輸入的原始圖像,計算渲染圖像和原始圖像之間的損失函數。

優化3D高斯屬性:使用優化算法如Adam優化器,通過梯度下降來優化3D高斯點的顔色、不透明度等屬性。

去除無效高斯點:在優化結束後,去除透明度過低或半徑過大的無效高斯點。

細化表面細節:通過基于梯度的複制高斯點生成新的高斯點,以細化物體表面的細節表示。

通過以上操作,映射階段旨在不斷優化3D高斯點的屬性,以實作高品質的圖像渲染效果。

5、實驗

主要包含以下内容:

實驗設定:作者使用了Livox AVIA雷射雷達和MV-CS050-10UC相機組成的資料采集裝置,并在校園場景中收集了9個資料集。所有實驗都采用了表格III中的參數設定。此外,作者使用了R3LIVE系統來獲得初步的姿态真值,并使用HBA進行了進一步的優化,以評估所提出的重定位子產品。

評價名額:作者在跟蹤階段使用了絕對軌迹誤差的均方根誤差(ATE RMSE)作為評價名額,而在映射階段則使用了峰值信噪比(PSNR)、結構相似性指數(SSIM)和LPIPS作為評價名額。

結果比較:在跟蹤階段,作者将所提出的方法與SplaTAM、MonoGS和NeRF-LOAM等方法進行了比較。在映射階段,作者則将所提出的方法與SplaTAM、MonoGS、3D Gaussian Splatting等方法進行了比較。結果顯示,所提出的方法在所有序列中均取得了最佳的映射結果。

定性結果比較:作者還将所提出的方法與SplaTAM進行了定性比較,結果表明所提出的方法可以渲染出更清晰的圖像,并更好地表示物體表面的細節。

重定位子產品效果:作者還進行了重定位子產品的Ablation Study,結果表明所提出的重定位子產品成功将姿态恢複到正确軌迹。

中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建
中科大新作 | 基于3D高斯的多模态融合在無界場景中的定位和重建

6、結論

定位和地圖繪制是自動駕駛汽車和機器人等各種應用的關鍵任務。由于戶外環境的無限特性,戶外環境帶來的挑戰呈現出特别的複雜性。在這項工作中,我們提出了MM-Gaussian,一種用于無界場景中定位和映射的LiDAR相機多模态融合系統。我們的方法受到最近開發的 3D 高斯的啟發,它們在實作高渲染品質和快速渲染速度方面表現出非凡的能力。具體而言,我們的系統充分利用了固态雷射雷達提供的幾何結構資訊,解決了在無界戶外場景中僅依靠視覺解決方案時遇到的深度不準确的問題。此外,我們利用3D高斯點雲,借助像素級梯度下降,充分利用照片中的色彩資訊,進而實作逼真的渲染效果。為了進一步增強我們系統的魯棒性,我們設計了一個重新定位子產品,該子產品有助于在發生定位失敗時傳回正确的軌迹。在多種場景下進行的實驗證明了我們方法的有效性。

本文僅做學術分享,如有侵權,請聯系删文。

計算機視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺學習知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀