天天看點

120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

城市級重建和渲染由于未限定環境的巨大規模和捕獲資料的稀疏性而面臨重大挑戰。幸運的是,在自動駕駛汽車環境中,通常可以獲得來自多個傳感器捕獲的各種模态的資料。然而,在城市場景中充分利用多傳感器的不同模态資料進行精确模組化和實時渲染仍然是該領域中一個懸而未決的問題。

初始的3D-GS方法使用SfM的點來初始化高斯,但在自動駕駛環境中的未限定城市場景中,特别是當視角稀疏時,這種方法面臨挑戰。為了促進更好的3D高斯初始化,開創性的研究已将雷射雷達先驗引入到3D-GS過程中,以實作更準确的幾何并確定多個周圍視圖的渲染一緻性。然而,直接使用雷射雷達點初始化3D高斯的位置并未充分利用嵌入在3D雷射雷達點中的豐富的3D幾何資訊,如深度和幾何特征。

為此,這篇文章提出了一種新穎的緊密耦合的雷射雷達-相機高斯飛濺(TCLC-GS),用于在周圍自動駕駛場景中進行精确模組化和實時渲染。與直接使用雷射雷達點初始化3D高斯的直覺方法相反,TCLC-GS提供了一個更為凝聚的解決方案,有效地利用了雷射雷達和相機傳感器的綜合優勢。

下面一起來閱讀一下這項工作~

标題:TCLC-GS: Tightly Coupled LiDAR-Camera Gaussian Splatting for Surrounding Autonomous Driving Scenes

作者:Cheng Zhao, Su Sun, Ruoyu Wang, Yuliang Guo, Jun-Jun Wan, Zhou Huang, Xinyu Huang, Yingjie Victor Chen, Liu Ren

機構:博世人工智能中心(BCAI)、普渡大學、博世XC跨域計算公司

原文連結:https://arxiv.org/abs/2404.02410

大多數基于3D高斯光斑(3D-GS)的城市場景方法直接使用3D雷射雷達點初始化3D高斯函數,這不僅未充分利用雷射雷達資料的能力,而且忽視了将雷射雷達與相機資料融合的潛在優勢。在本文中,我們設計了一種新穎的緊密耦合的雷射雷達-相機高斯光斑(TCLC-GS),以充分利用雷射雷達和相機傳感器的綜合優勢,實作快速、高品質的3D重建和新視角RGB/深度合成。TCLC-GS設計了一種混合的顯式(着色的3D網格)和隐式(分層八叉樹特征)3D表示,從雷射雷達-相機資料中導出,以豐富用于光斑處理的3D高斯的屬性。3D高斯的屬性不僅與提供更完整的3D形狀和顔色資訊的3D網格對齊初始化,而且通過檢索的八叉樹隐式特征賦予了更廣泛的上下文資訊。在高斯光斑優化過程中,3D網格提供了作為監督的密集深度資訊,通過學習穩健的幾何形狀增強了訓練過程。在Waymo Open Dataset和nuScenes Dataset上進行的綜合評估驗證了我們方法的最先進性能。利用單個NVIDIA RTX 3090 Ti,我們的方法展示了快速訓練,并在分辨率為1920x1280(Waymo)的城市場景中實作了90 FPS的實時RGB和深度渲染,以及在分辨率為1600x900(nuScenes)的城市場景中實作了120 FPS。

左邊:原始的基于3D - GS的方法通過3D LiDAR點直接初始化3D高斯;右:TCLC - GS通過顯式的(彩色化的3D網格)和隐式的(層次八叉樹特征)表示豐富了3D高斯的幾何和外觀屬性。

120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!

彩色化的3D網格和稠密深度的可視化。 第1行:給定相機在三維網格内的位姿,渲染稠密的周圍深度圖像;第2行:基于八叉樹隐式表示生成彩色三維網格。

120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!

(1)混合3D表示提供了顯式(着色的3D網格)和隐式(分層八叉樹特征)表示,以引導3D高斯的屬性初始化和優化;

(2)3D高斯的幾何屬性被初始化以與提供完整3D形狀和顔色資訊的3D網格對齊,而3D高斯的外觀屬性則通過檢索到的八叉樹隐式特征進行豐富,提供了更廣泛的上下文資訊;

(3)除了RGB監督外,從3D網格渲染的密集深度為GS優化提供了補充監督。解決方案提高了在城市駕駛場景中的3D重建和渲染品質,同時不損害3D-GS的效率。該方案能夠快速而準确地重建城市街景,同時在1920×1280的分辨率下實作大約90 FPS的實時RGB和深度渲染能力,并在1600×900的分辨率下使用單個NVIDIA GeForce RTX 3090 Ti實作大約120 FPS。

TCLC-GS的關鍵思想是将顯式(着色的3D網格)和隐式(從雷射雷達-相機資料派生的分層八叉樹特征)的混合3D表示相結合,以增強3D高斯的幾何和外觀特性。具體來說,作者首先通過對雷射雷達幾何和圖像顔色進行編碼,學習并存儲隐式特征在基于八叉樹的分層結構中。然後,根據從隐式特征體積解碼的着色3D網格初始化3D高斯。與原始雷射雷達點相比,3D網格增強了連續性/完整性,增加了密度,并增加了顔色細節。與此同時,通過将從八叉樹檢索到的隐式特征結合到每個3D高斯中,增強了外觀描述的學習。進一步從顯式網格渲染密集深度以監督GS優化過程,相對于使用稀疏雷射雷達深度,增強了訓練的穩健性。通過這種方式,雷射雷達和相機資料在3D高斯的初始化和優化階段得到了緊密內建。

TCLC-GS的Pipeline:首先将所有LiDAR掃描合并在一起,然後使用截斷區域沿着LiDAR光線内的采樣3D點建構分層八叉樹隐式特征網格。這些八叉樹隐式特征由SDF和RGB解碼器訓練,由稀疏的LiDAR範圍測量和周圍圖像投影的RGB顔色監督。随後,獲得優化的八叉樹隐式表示和全局場景的彩色化3D網格。3D高斯函數的幾何屬性由3D網格初始化,而3D高斯函數的外觀屬性則通過網格頂點檢索的八叉樹隐式特征豐富。通過密集的深度和顔色監督,使用密集的深度和顔色監督對3D高斯函數進行優化。與來自LiDAR的稀疏深度監督不同,該方案的密集深度監督是利用射線跟蹤方法從3D網格渲染的。

120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!

在Waymo資料集上對新穎的左前方、前方和右前方周圍視圖進行圖像和深度合成的視覺比較。第1行:3D - GS圖像;第2行:Tclc - GS圖像;第3行:GT圖像;第4排:3D - GS深度;第5行:Tclc - GS深度;第6行:LiDAR點在影像上投影的GT深度。

120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!

新視角及深度圖合成的性能對比。

120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!
120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!
120 FPS!城市場景3DGS新SOTA!TCLC-GS:高品質3D重建及合成!

這篇文章提出了一種新穎的緊密耦合的雷射雷達-攝像頭高斯潑濺(TCLC-GS),它将雷射雷達和周圍攝像頭的優勢相結合,用于在城市駕駛場景中進行快速模組化和實時渲染。TCLC-GS的關鍵思想是将雷射雷達-攝像頭資料導出的顯式(彩色化3D網格)和隐式(分層八叉樹特征)資訊相結合的混合3D表示,豐富了3D高斯的幾何和外觀屬性。高斯點光栅的優化進一步通過将渲染的密集深度資料納入3D網格來增強。實驗評估表明,TCLC-GS在維持GS在Waymo Open和nuScenes資料集上的實時效率的同時,超越了SOTA性能。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀