天天看点

北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解

作者:3D视觉工坊

作者:Guibiao Liao | 编辑:3DCV

添加微信:cv3d008,备注:方向+单位+昵称,拉你入群。文末附行业细分群

北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解

1、导读

这篇文章介绍了一种名为CLIP-GS的方法,该方法将CLIP模型的语义信息与3D高斯溅射相结合,用于实现对3D场景的实时、精确语义理解。该方法的关键创新包括利用高斯溅射的高效渲染能力,以及引入语义属性紧凑性和3D协同自训练策略。实验结果表明,CLIP-GS在多个数据集上取得了最先进的性能,尤其在实时渲染速度和分割精度方面表现突出。总的来说,这篇文章提出了一种高效精确的3D语义理解方法,通过融合语义信息和高效渲染技术,为3D场景理解领域带来了新的突破。

2、论文信息

标题:CLIP-GS: CLIP-INFORMED GAUSSIAN SPLATTING FOR REAL-TIME AND VIEW-CONSISTENT 3D SEMANTIC UNDERSTANDING

作者:Guibiao Liao等人

单位:北京大学等单位

论文:https://arxiv.org/pdf/2404.14249

3、主要贡献

CLIP-GS方法的主要贡献包括以下几点:

  1. 语义紧凑性(SAC):提出了语义紧凑性方法,利用同一物体的统一语义,通过学习每个物体的代表语义特征,最小化学习冗余的相似特征,实现高效渲染。
  2. 3D一致自训练(3DCS):引入了3D一致自训练策略,利用训练后的3D高斯模型产生的伪标签进行跨视图语义一致性约束,增强高斯模型的视图一致性语义学习。
  3. 实验验证:实验证明,该方法在多个数据集上优于其他基于CLIP的3D语义分割方法,提高了语义分割精度和渲染效率,同时展现了方法在稀疏输入数据下的鲁棒性。

4、CLIP-GS

北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解

CLIP-GS优化

如图所示详细描述了CLIP-GS方法的优化过程。首先,为了表示3D场景,我们遵循3DGS方法,在3D高斯分布中增加了一个额外的属性:语义嵌入。然后,使用可微分的光栅化器将这些3D高斯属性渲染到2D平面上进行优化。其次,优化过程分为两个阶段。在第一阶段,我们引入了语义属性紧凑性(SAC)方法,以学习3D高斯的紧凑语义表示,从而实现高效的渲染。在第二阶段,训练了CLIP-GS几轮后,我们引入了3D一致自训练(3DCS)方法。3DCS利用来自CLIP-GS的跨视图自我预测语义,并通过一致性正则化进行增强,为高斯提供更强的视图一致性监督。值得注意的是,为了简化,我们省略了自适应密度控制和颜色优化过程,这部分与3DGS相同。

4.1、语义紧凑性(SAC)

SAC方法的思路是利用同一物体内在统一的语义意义进行高效表示。具体来说,通过分割任意模型(SAM)获得区域掩码,对每个区域计算语义特征的加权平均,得到代表该区域的统一语义特征。然后,使用语义索引表示这些统一特征,得到语义索引图。通过这种方式,输入训练视图的CLIP语义特征可以紧凑地表示为统一特征和低维语义索引图。在优化过程中,为每个3D高斯嵌入低维语义可学习参数,然后利用α混合渲染学习语义索引,以检索CLIP特征。此外,为了进一步加速学习过程,我们在训练前离线计算检索过程。SAC方法通过将紧凑的语义信息嵌入到3D高斯中,实现了高效渲染,同时保持了高质量的视觉结果。因此,SAC方法对于高效表示场景语义并实现精确语义分割具有重要意义。

4.2、3D一致自训练

3DCS方法的关键思想是利用3D模型固有的跨视图一致性来增强语义一致性。具体来说,在训练3D高斯分布一段时间后,我们使用训练好的3D高斯模型渲染出训练视图的语义图。然后,利用SAM生成的区域掩码,将相邻视图的语义信息整合到当前视图的语义图中,以消除同一物体在不同视图中的语义歧义。为了实现这种一致性正则化,我们使用多数投票机制,结合相邻视图的语义信息,对当前视图的语义进行统一。这样,通过自训练方式利用了3D模型的一致性输出,为3D高斯提供了跨视图一致的语义监督,从而增强了语义的一致性。3DCS方法通过利用3D模型的一致性输出,为3D高斯提供了跨视图一致的语义监督,有效改善了语义的一致性。因此,该方法对于提高3D语义分割的精确性和一致性具有重要意义。

4.3、端到端训练过程

整个模型的训练过程包括两个阶段:

  1. Phase I:在这一阶段,我们使用语义属性紧凑性(SAC)方法,通过计算训练视图的语义损失(L2Ds)来优化3D高斯的语义嵌入参数。这一阶段的主要目标是学习紧凑高效的语义表示。
  2. Phase II:在训练3D高斯分布一定次数(T次)后,我们进入第二阶段。在这一阶段,我们使用3D一致自训练(3DCS)方法,通过计算3D自训练损失(L3Ds)来替换L2Ds,以增强语义一致性。3DCS方法利用跨视图语义一致性约束来增强监督信号,进一步提高语义分割的精确性。此外,为了在保持高质量场景表示的同时提高渲染效率,我们引入了渐进密度调节(Progressive Densification Regulation, PDR)策略。该策略逐步增加图像分辨率和密度控制频率,有效减少了高斯点的数量,同时保持了渲染质量。

5、实验

定量比较:在定量比较中,我们的方法在渲染质量和分割精度上均优于其他竞争方法。特别是在Replica和ScanNet数据集上,我们的方法相较于次优方法在mIoU指标上分别提高了17.29%和20.81%。

北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解
北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解

定性比较:在定性比较中,我们的方法在不同视图中获得了更连续和一致的语义分割结果。相比其他方法,我们的方法呈现了更好的视觉渲染质量,并且在稀疏输入数据下也展现出稳健的重建质量和分割性能。

ablation研究:ablation研究表明,SAC、3DCS和PDR策略都对最终性能有显著的贡献。具体来说,SAC提高了推理效率和分割精度;3DCS引入了重要的跨视图一致语义约束,提升了语义质量;PDR策略通过减少高斯点数量有效提升了效率。

北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解
北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解
北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解
北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解
北大 | CLIP模型语义信息与3DGS,对3D场景的实时、精确语义理解

6、结论

在这段内容中,作者介绍了他们提出的一种名为CLIP-GS的新方法,旨在通过高斯溅射(Gaussian Splatting)实现3D场景的实时和精确语义理解。该方法包含两个关键组成部分:

  1. 语义属性紧凑性(SAC):该方法将紧凑的语义信息嵌入到3D高斯中,以高效表示3D语义,从而确保了渲染的高效率。
  2. 3D一致自训练(3DCS):该方法增强了不同视图之间的语义一致性,从而产生了准确的3D分割结果。

通过在合成和真实世界场景上的实验,作者发现该方法显著优于现有最先进的方法,同时在稀疏输入数据下也表现出优越的性能,验证了其在3D语义学习方面的稳健性。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读