天天看点

简单但有效!轻松分割运动目标!

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

光流在运动物体分割中发挥了重要的作用,能够:(i)发现运动物体,(ii)为分割提供清晰的边界,以及(iii)如果它们一起移动,将物体的部分组合在一起。它已经成为了许多自监督学习方法中发现移动物体的基础。然而,如果物体暂时静止,或者在区分前景物体和背景"噪音"时,它会面临分割挑战。这自然引出了一个问题:"如何利用SAM与流结合来在视频中进行移动物体分割?"。

为此,这篇文章探索了两种不同但简单的变体,以有效地定制SAM用于运动分割。首先介绍了FlowI-SAM,这是对原始SAM的改编,它直接处理光流作为三通道输入图像进行分割,其中均匀网格上的点被用作提示。这种方法利用了SAM对准确分割移动物体对静态背景的能力,通过利用光流场中存在的清晰边界和不同纹理。然而,在光流来自多个相互作用的对象的场景中,它在分离它们方面的成功较少,因为流只包含有限的信息来分离它们。其次建立在SAM对RGB图像分割的强大能力之上,提出了FlowP-SAM,其中输入是一个RGB帧,流引导SAM进行移动物体分割作为提示,由可训练的提示生成器产生。这种方法有效地利用了SAM在RGB图像分割上的能力,流信息作为一个在帧内选择移动物体/区域的选择器。此外,将这些方法从帧级扩展到序列级视频分割,以便对象标识在整个序列中保持一致。作者通过引入一个匹配模块来实现这一点,该模块自回归地选择是否选择一个新对象或基于时间一致性来传播旧对象。

下面一起来阅读一下这项工作~

标题:Moving Object Segmentation: All You Need Is SAM (and Flow)

作者:Junyu Xie, Charig Yang, Weidi Xie, Andrew Zisserman

机构:牛津大学视觉几何小组、上海交通大学计算机学院

原文链接:https://arxiv.org/abs/2404.12389

代码链接:https://github.com/Jyxarthur/flowsam

官方主页:https://www.robots.ox.ac.uk/%7Evgg/research/flowsam/

本文的目标是运动分割------在视频中发现并分割移动物体。这是一个经过深入研究的领域,有许多谨慎、有时复杂的方法和训练方案,包括:自监督学习、从合成数据集学习、物体中心表示、模态表示等等。我们在本文中的兴趣在于确定"Segment Anything"模型(SAM)是否能够为这一任务做出贡献。我们研究了两种将SAM与光流结合的模型,利用SAM的分割能力和光流发现和分组移动物体的能力。在第一个模型中,我们调整SAM以将光流而不是RGB作为输入。在第二个模型中,SAM将RGB作为输入,而流则用作分割提示。这些令人惊讶的简单方法,在没有任何进一步修改的情况下,在单一和多物体基准测试中都大大优于所有先前的方法。我们还将这些帧级别的分割扩展到保持对象身份的序列级别分割。同样,这个简单的模型在多个视频对象分割基准测试中优于先前的方法。

仅光流预测(即光流作为唯一输入)。

简单但有效!轻松分割运动目标!

基于RGB的预测(即RGB和光流作为输入)。

简单但有效!轻松分割运动目标!

这篇文章介绍并探索了两个模型,以利用SAM在视频中进行移动物体分割,使主要移动物体能够与背景运动区分开来。主要贡献有三个方面:

(1)FlowI-SAM模型,利用光流作为三通道输入图像进行精确的逐帧分割和移动物体识别。

(2)FlowP-SAM模型,这是RGB和流的双流数据的新颖组合,利用光流生成提示,指导SAM在RGB图像中识别和定位移动物体。

(3)在移动物体分割基准上,包括DAVIS、YTVOS和MoCA,在帧级和序列级上都取得了新的领先性能。

FlowI - SAM概述。( a ) FlowI - SAM的推理管线。( b )带可训练参数标记的FlowI - SAM体系结构。点提示令牌由冻结的提示编码器生成。

简单但有效!轻松分割运动目标!

FlowP-SAM的概述。(a) FlowP-SAM的推理流程。(b) FlowP-SAM的架构。光流提示生成器产生光流提示,注入到类似SAM的基于RGB的分割模块中。这两个模块都接收相同的点提示令牌,该令牌来自冻结的提示编码器。(c) 光流Transformer的详细架构。输入令牌在轻量级变换器解码器内作为查询,迭代地关注密集光流特征。然后,输出的移动物体分数(MOS)令牌由基于MLP的头部处理,以预测一个分数,指示输入的点提示是否对应于移动物体。

简单但有效!轻松分割运动目标!

• 光流帧间隔。 如表1所示,利用具有多个帧间隔(即,1,-1,2,-2)的光流输入会在多对象和单对象基准测试中显著提升性能。这种改进归因于运动信息在扩展时间范围内的一致性,有效地减轻了光流输入中由缓慢移动、部分运动等引起的噪声的影响。

• 光流特征的组合。 探索了两种组合方案:(i)取最大值;和(ii)在不同帧间隔上进行平均。根据表2,平均方法产生了更优异的结果。

简单但有效!轻松分割运动目标!

帧级性能。 4区分了仅光流和基于RGB的方法,前者仅采用光流作为输入模态,后者则采用RGB帧并可选择性地输入流。注意,由于缺乏监督基准,一些最近的自监督方法的性能也被报道。

简单但有效!轻松分割运动目标!

图5进一步提供了基于RGB的方法的可视化, 前的工作有时无法(i)识别移动物体(例如,第五列中缺少的豹子); (ii)区分多个对象(例如,第二和第四列中的纠缠对象分割),而FlowI-SAM + FlowP-SAM(seq)将基于RGB的预测与光流提示结合起来,从而实现了移动物体的准确定位和分割。

简单但有效!轻松分割运动目标!

这篇文章专注于在真实世界的视频中进行移动对象分割,通过两种方式将每帧的 SAM 与运动信息(光流)相结合:

(i)对于仅光流入 FlowI-SAM,直接将光流作为输入;

(ii)对于基于 RGB 的分割,利用运动信息生成流提示作为指导。这两种方法在单对象和多对象基准测试中都提供了最先进的帧级分割性能。此外,开发了一种逐帧关联方法,将 FlowI-SAM 和 FlowP-SAM 的预测结合起来,实现了在 DAVIS、YTVOS 和 MoCA 基准测试中优于所有先前方法的序列级分割预测。

该工作的主要局限性是其延长的运行时间,归因于SAM 中计算量较大的图像编码器。然而,这篇文章通常适用于其他基于提示的分割模型。随着 SAM 的更高效版本的出现,预计推理时间将显著减少。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读