天天看点

北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA

作者:3D视觉工坊

作者:Lizhi Wang |编辑:3DCV

添加微信:dddvision,备注:方向+单位+昵称,拉你入群。文末附行业细分群

北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA

这篇文章介绍了一个名为OMEGAS的框架,旨在从大规模场景中提取指定对象的网格。OMEGAS框架通过多步方法实现,首先使用SAM模型引导3DGS的分割,构建目标对象的基本3DGS模型。接着,利用大规模扩散先验(如Stable Diffusion)进一步优化3DGS模型的细节,特别是处理原始场景视图中的不可见或被遮挡的部分。然后,将3DGS模型重新渲染到场景视图中,实现准确的物体分割并有效移除背景。最后,将目标对象的图像和3DGS模型输入SuGaR模型中,进行进一步优化并提取最终网格。实验结果显示,OMEGAS在目标对象网格重建中具有显著的性能优势,特别是在纹理细节和抗遮挡性方面。

北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA

OMEGAS框架在从大场景中提取目标对象网格的主要步骤包括:

  1. 高斯分割:利用SAM模型进行初步的目标一致性分割,然后采用3D高斯溅射(3DGS)对多视图图像进行场景重建和分割,并通过分类损失和3D余弦相似度损失来优化分割结果。
  2. 目标高斯提取:使用Grounding DINO模型选择目标对象,并提取对应的高斯表示。
  3. 高斯优化:通过随机视角渲染目标高斯模型,并利用稳定扩散模型的SDS损失来优化目标高斯模型,以增强细节并填充原始视图的遮挡部分。
  4. 网格提取:将优化的3DGS模型渲染到输入图像上,获得更精确的目标掩码,并将其与优化的3DGS模型一起输入SuGaR模型,以获得最终的目标网格。

在多个数据集上验证OMEGAS框架在目标对象网格提取方面的有效性,包括分割质量、网格质量以及遮挡鲁棒性等指标的评估。总的来说,OMEGAS框架通过多步迭代优化,实现了从大场景中精确提取目标对象的高质量网格。

  1. 分类损失:利用渲染后的身份向量进行线性层处理,并通过交叉熵损失进行分类。
  2. 3D余弦相似度损失:对采样得到的3D高斯进行余弦相似度计算,以提高3D一致性的分割效果。
  3. 高斯损失:3DGS的原始高斯损失函数。
  4. 总损失:将上述损失函数进行加权求和,其中分类损失和3D余弦相似度损失分别对应权重系数和。
北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA
北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA
  1. 渲染随机视角图像:从随机视角渲染目标3DGS模型,以获得更全面的重建效果。
  2. SDS损失优化:利用稳定扩散的SDS损失来优化3DGS模型,并采用“一个物体的照片”作为提示,以优化目标高斯模型。
  3. 增强细节和遮挡部分:稳定扩散的优化不仅提高了细节质量,而且有助于填充原始视图的遮挡部分,从而实现更全面的重建效果。
  4. 渲染补充图像:将随机视角渲染的3DGS图像补充到SuGaR模型的输入中,以增强对遮挡部分的重建效果。
  1. 分割质量:在LERF-MASK数据集上,OMEGAS框架相较于Gaussian Grouping基准实现了更好的分割质量,并且具有更高的训练效率。
  2. 网格质量:在比较实验中,OMEGAS框架相较于SuGaR和DreamGaussian基准展现了更好的网格细节和形状。
  3. 遮挡鲁棒性:在可视化实验中,OMEGAS框架展示了对于遮挡和不可见部分的目标的重建效果。
  4. Ablation研究:Ablation研究表明,SDS优化能够提高遮挡部分的重建效果,而SuGaR优化可以减轻SDS的负面影响,从而提升整体质量。
北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA
北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA
北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA
北邮 | OMEGAS:大场景中的目标分割、遮挡目标重建最新SOTA

总体来看,OMEGAS框架在分割质量、网格质量、遮挡鲁棒性等方面展现了明显的优越性。

OMEGAS框架:旨在从大规模场景中提取特定对象的网格。该框架采用了多个步骤,并整合了多种技术方法,包括SAM、3DGS、Stable Diffusion和SuGaR模型。实验结果表明,OMEGAS在重建目标对象网格方面明显优于现有方法,尤其在细节纹理和遮挡鲁棒性方面表现突出。该框架在开放世界场景中为特定对象提供了高精度的网格提取能力,从而为AR、游戏等下游任务提供了更好的解决方案。

本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读