北邮 | OMEGAS：大场景中的目标分割、遮挡目标重建最新SOTA

作者：Lizhi Wang |编辑：3DCV

添加微信：dddvision，备注：方向+单位+昵称，拉你入群。文末附行业细分群

这篇文章介绍了一个名为OMEGAS的框架，旨在从大规模场景中提取指定对象的网格。OMEGAS框架通过多步方法实现，首先使用SAM模型引导3DGS的分割，构建目标对象的基本3DGS模型。接着，利用大规模扩散先验（如Stable Diffusion）进一步优化3DGS模型的细节，特别是处理原始场景视图中的不可见或被遮挡的部分。然后，将3DGS模型重新渲染到场景视图中，实现准确的物体分割并有效移除背景。最后，将目标对象的图像和3DGS模型输入SuGaR模型中，进行进一步优化并提取最终网格。实验结果显示，OMEGAS在目标对象网格重建中具有显著的性能优势，特别是在纹理细节和抗遮挡性方面。

OMEGAS框架在从大场景中提取目标对象网格的主要步骤包括：

高斯分割：利用SAM模型进行初步的目标一致性分割，然后采用3D高斯溅射(3DGS)对多视图图像进行场景重建和分割，并通过分类损失和3D余弦相似度损失来优化分割结果。
目标高斯提取：使用Grounding DINO模型选择目标对象，并提取对应的高斯表示。
高斯优化：通过随机视角渲染目标高斯模型，并利用稳定扩散模型的SDS损失来优化目标高斯模型，以增强细节并填充原始视图的遮挡部分。
网格提取：将优化的3DGS模型渲染到输入图像上，获得更精确的目标掩码，并将其与优化的3DGS模型一起输入SuGaR模型，以获得最终的目标网格。

在多个数据集上验证OMEGAS框架在目标对象网格提取方面的有效性，包括分割质量、网格质量以及遮挡鲁棒性等指标的评估。总的来说，OMEGAS框架通过多步迭代优化，实现了从大场景中精确提取目标对象的高质量网格。

分类损失：利用渲染后的身份向量进行线性层处理，并通过交叉熵损失进行分类。
3D余弦相似度损失：对采样得到的3D高斯进行余弦相似度计算，以提高3D一致性的分割效果。
高斯损失：3DGS的原始高斯损失函数。
总损失：将上述损失函数进行加权求和，其中分类损失和3D余弦相似度损失分别对应权重系数和。

渲染随机视角图像：从随机视角渲染目标3DGS模型，以获得更全面的重建效果。
SDS损失优化：利用稳定扩散的SDS损失来优化3DGS模型，并采用“一个物体的照片”作为提示，以优化目标高斯模型。
增强细节和遮挡部分：稳定扩散的优化不仅提高了细节质量，而且有助于填充原始视图的遮挡部分，从而实现更全面的重建效果。
渲染补充图像：将随机视角渲染的3DGS图像补充到SuGaR模型的输入中，以增强对遮挡部分的重建效果。

分割质量：在LERF-MASK数据集上，OMEGAS框架相较于Gaussian Grouping基准实现了更好的分割质量，并且具有更高的训练效率。
网格质量：在比较实验中，OMEGAS框架相较于SuGaR和DreamGaussian基准展现了更好的网格细节和形状。
遮挡鲁棒性：在可视化实验中，OMEGAS框架展示了对于遮挡和不可见部分的目标的重建效果。
Ablation研究：Ablation研究表明，SDS优化能够提高遮挡部分的重建效果，而SuGaR优化可以减轻SDS的负面影响，从而提升整体质量。

总体来看，OMEGAS框架在分割质量、网格质量、遮挡鲁棒性等方面展现了明显的优越性。

OMEGAS框架：旨在从大规模场景中提取特定对象的网格。该框架采用了多个步骤，并整合了多种技术方法，包括SAM、3DGS、Stable Diffusion和SuGaR模型。实验结果表明，OMEGAS在重建目标对象网格方面明显优于现有方法，尤其在细节纹理和遮挡鲁棒性方面表现突出。该框架在开放世界场景中为特定对象提供了高精度的网格提取能力，从而为AR、游戏等下游任务提供了更好的解决方案。

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉技术星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

北邮 | OMEGAS：大场景中的目标分割、遮挡目标重建最新SOTA

继续阅读

ESD防静电门禁闸机应用到哪些场景

微博接入通义大模型，应用于明星陪聊等场景，网友：又整新活了

电信日编辑选择：数字创新促进可持续发展·大模型场景应用典型案例

中国联通：深耕场景助力新型工业化走深向实

辽中区休闲农家小院民宿场景体验

热闹场景中的情感与行为深度剖析，引发人文色彩浓厚的思考

迪丽热巴更新微博，4个场景12张美照，网友：这是清空内存了吗？

《庆余年2》中陈道明饰演的庆帝穿着运动鞋奔跑场景引发热议

618大促新玩法：李佳琦直播间多元主题与场景创新大揭秘

从红场景到红单品，小红书为食饮品牌解锁流量密码

帮助残疾人“听见”“看见”并“走”得更远——科技助力，打开助残应用新场景

新场景、新科技、新体验，“5·19中国旅游日”浦东新区旅游主题活动举行

顾家家居“场景融合C店”掀起家居新零售浪潮，九店齐开，潮购狂欢

新业态新场景带动文化产业高质量发展

索尼HT-AX7积木音响体验：可移动多场景音效的临场享受

柔光人像不止明亮，vivo S17 Pro让人物融进场景里