天天看点

120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

城市级重建和渲染由于未限定环境的巨大规模和捕获数据的稀疏性而面临重大挑战。幸运的是,在自动驾驶汽车环境中,通常可以获得来自多个传感器捕获的各种模态的数据。然而,在城市场景中充分利用多传感器的不同模态数据进行精确建模和实时渲染仍然是该领域中一个悬而未决的问题。

初始的3D-GS方法使用SfM的点来初始化高斯,但在自动驾驶环境中的未限定城市场景中,特别是当视角稀疏时,这种方法面临挑战。为了促进更好的3D高斯初始化,开创性的研究已将激光雷达先验引入到3D-GS过程中,以实现更准确的几何并确保多个周围视图的渲染一致性。然而,直接使用激光雷达点初始化3D高斯的位置并未充分利用嵌入在3D激光雷达点中的丰富的3D几何信息,如深度和几何特征。

为此,这篇文章提出了一种新颖的紧密耦合的激光雷达-相机高斯飞溅(TCLC-GS),用于在周围自动驾驶场景中进行精确建模和实时渲染。与直接使用激光雷达点初始化3D高斯的直观方法相反,TCLC-GS提供了一个更为凝聚的解决方案,有效地利用了激光雷达和相机传感器的综合优势。

下面一起来阅读一下这项工作~

标题:TCLC-GS: Tightly Coupled LiDAR-Camera Gaussian Splatting for Surrounding Autonomous Driving Scenes

作者:Cheng Zhao, Su Sun, Ruoyu Wang, Yuliang Guo, Jun-Jun Wan, Zhou Huang, Xinyu Huang, Yingjie Victor Chen, Liu Ren

机构:博世人工智能中心(BCAI)、普渡大学、博世XC跨域计算公司

原文链接:https://arxiv.org/abs/2404.02410

大多数基于3D高斯光斑(3D-GS)的城市场景方法直接使用3D激光雷达点初始化3D高斯函数,这不仅未充分利用激光雷达数据的能力,而且忽视了将激光雷达与相机数据融合的潜在优势。在本文中,我们设计了一种新颖的紧密耦合的激光雷达-相机高斯光斑(TCLC-GS),以充分利用激光雷达和相机传感器的综合优势,实现快速、高质量的3D重建和新视角RGB/深度合成。TCLC-GS设计了一种混合的显式(着色的3D网格)和隐式(分层八叉树特征)3D表示,从激光雷达-相机数据中导出,以丰富用于光斑处理的3D高斯的属性。3D高斯的属性不仅与提供更完整的3D形状和颜色信息的3D网格对齐初始化,而且通过检索的八叉树隐式特征赋予了更广泛的上下文信息。在高斯光斑优化过程中,3D网格提供了作为监督的密集深度信息,通过学习稳健的几何形状增强了训练过程。在Waymo Open Dataset和nuScenes Dataset上进行的综合评估验证了我们方法的最先进性能。利用单个NVIDIA RTX 3090 Ti,我们的方法展示了快速训练,并在分辨率为1920x1280(Waymo)的城市场景中实现了90 FPS的实时RGB和深度渲染,以及在分辨率为1600x900(nuScenes)的城市场景中实现了120 FPS。

左边:原始的基于3D - GS的方法通过3D LiDAR点直接初始化3D高斯;右:TCLC - GS通过显式的(彩色化的3D网格)和隐式的(层次八叉树特征)表示丰富了3D高斯的几何和外观属性。

120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!

彩色化的3D网格和稠密深度的可视化。 第1行:给定相机在三维网格内的位姿,渲染稠密的周围深度图像;第2行:基于八叉树隐式表示生成彩色三维网格。

120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!

(1)混合3D表示提供了显式(着色的3D网格)和隐式(分层八叉树特征)表示,以引导3D高斯的属性初始化和优化;

(2)3D高斯的几何属性被初始化以与提供完整3D形状和颜色信息的3D网格对齐,而3D高斯的外观属性则通过检索到的八叉树隐式特征进行丰富,提供了更广泛的上下文信息;

(3)除了RGB监督外,从3D网格渲染的密集深度为GS优化提供了补充监督。解决方案提高了在城市驾驶场景中的3D重建和渲染质量,同时不损害3D-GS的效率。该方案能够快速而准确地重建城市街景,同时在1920×1280的分辨率下实现大约90 FPS的实时RGB和深度渲染能力,并在1600×900的分辨率下使用单个NVIDIA GeForce RTX 3090 Ti实现大约120 FPS。

TCLC-GS的关键思想是将显式(着色的3D网格)和隐式(从激光雷达-相机数据派生的分层八叉树特征)的混合3D表示相结合,以增强3D高斯的几何和外观特性。具体来说,作者首先通过对激光雷达几何和图像颜色进行编码,学习并存储隐式特征在基于八叉树的分层结构中。然后,根据从隐式特征体积解码的着色3D网格初始化3D高斯。与原始激光雷达点相比,3D网格增强了连续性/完整性,增加了密度,并增加了颜色细节。与此同时,通过将从八叉树检索到的隐式特征结合到每个3D高斯中,增强了外观描述的学习。进一步从显式网格渲染密集深度以监督GS优化过程,相对于使用稀疏激光雷达深度,增强了训练的稳健性。通过这种方式,激光雷达和相机数据在3D高斯的初始化和优化阶段得到了紧密集成。

TCLC-GS的Pipeline:首先将所有LiDAR扫描合并在一起,然后使用截断区域沿着LiDAR光线内的采样3D点构建分层八叉树隐式特征网格。这些八叉树隐式特征由SDF和RGB解码器训练,由稀疏的LiDAR范围测量和周围图像投影的RGB颜色监督。随后,获得优化的八叉树隐式表示和全局场景的彩色化3D网格。3D高斯函数的几何属性由3D网格初始化,而3D高斯函数的外观属性则通过网格顶点检索的八叉树隐式特征丰富。通过密集的深度和颜色监督,使用密集的深度和颜色监督对3D高斯函数进行优化。与来自LiDAR的稀疏深度监督不同,该方案的密集深度监督是利用射线跟踪方法从3D网格渲染的。

120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!

在Waymo数据集上对新颖的左前方、前方和右前方周围视图进行图像和深度合成的视觉比较。第1行:3D - GS图像;第2行:Tclc - GS图像;第3行:GT图像;第4排:3D - GS深度;第5行:Tclc - GS深度;第6行:LiDAR点在影像上投影的GT深度。

120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!

新视角及深度图合成的性能对比。

120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!
120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!
120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!

这篇文章提出了一种新颖的紧密耦合的激光雷达-摄像头高斯泼溅(TCLC-GS),它将激光雷达和周围摄像头的优势相结合,用于在城市驾驶场景中进行快速建模和实时渲染。TCLC-GS的关键思想是将激光雷达-摄像头数据导出的显式(彩色化3D网格)和隐式(分层八叉树特征)信息相结合的混合3D表示,丰富了3D高斯的几何和外观属性。高斯点光栅的优化进一步通过将渲染的密集深度数据纳入3D网格来增强。实验评估表明,TCLC-GS在维持GS在Waymo Open和nuScenes数据集上的实时效率的同时,超越了SOTA性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读