天天看点

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

传统的多目标跟踪(MOT)任务旨在逐帧跟踪所有特定类别的对象,这在视频理解中起着至关重要的作用。尽管已经取得了重大进展,但它存在着灵活性和泛化能力差的问题。为了解决这个问题,最近提出了参考多目标跟踪(RMOT)任务,其核心思想是通过语言描述指导多目标跟踪。例如,如果我们将"左侧有移动的汽车"作为查询输入,跟踪器将预测与描述相对应的所有轨迹。然而,由于灵活性的高代价,模型需要同时执行检测、关联和引用,因此,平衡子任务之间的优化成为一个关键问题。

为了完成这项任务,现有方法(例如TransRMOT)简单地将文本模块集成到现有的跟踪器中。然而,这种框架有几个固有的缺点:i)任务竞争。一些MOT方法已经揭示了检测和关联之间的优化竞争。在RMOT中,添加的引用子任务将进一步加剧这个问题。ii)工程成本。每当我们想要替换基线跟踪器时,我们需要重写代码并重新训练整个框架。iii)训练成本。联合训练所有子任务会导致高计算成本。

实质上,跟踪和引用子任务的紧密捆绑是这些限制的主要原因。这引发了一个自然的问题:"是否可能解耦这两个子任务?"。这项工作提出了一个"跟踪到引用"的框架,其中插入了一个名为iKUN的模块,它首先跟踪所有候选对象,然后根据语言描述识别查询对象,跟踪器在训练时被冻结,优化过程可以专注于引用子任务。

因此,核心问题在于设计一个可插入的引用模块。直观的选择是预训练在超过4亿个图像文本对上进行对比学习的CLIP风格模块,它的主要优势是优秀的视觉概念和文本描述的对齐。为简单起见,CLIP的视觉和文本流是独立的。这意味着对于给定的视觉输入,CLIP将提取一个固定的视觉特征,而不考虑文本输入。然而,在RMOT任务中,一个轨迹通常对应于多个描述,包括颜色、位置、状态等。很难将单个特征与多种特征匹配起来。受到这一观察的启发,作者设计了一个知识统一模块(KUM),以自适应地根据文本指导提取视觉特征。此外,为了减轻描述的长尾分布的影响,提出了一种测试时间相似性校准方法,以改进引用结果。其主要思想是估计开放测试集中描述的伪频率,并使用它们来修正引用得分。

对于跟踪子任务,卡尔曼滤波器被广泛用于运动建模。过程噪声和观测噪声是两个影响预测和更新步骤准确性的关键变量。然而,作为手工设计的模块,这两个变量由预设参数确定,并且难以适应运动状态的变化。作者通过设计一个名为NKF的神经版本的卡尔曼滤波器来解决这个问题,该滤波器动态估计过程和观测噪声。

作者在最近发布的Refer-KITTI [37]数据集上进行了大量实验,iKUN显示出明显优势,超过了现有解决方案。具体来说,iKUN在HOTA上超过了之前的SOTA方法TransRMOT 10.78%,在MOTA上超过了3.17%,在IDF1上超过了7.65%。还在KITTI和DanceTrack上进行了传统MOT任务的实验,提出的NKF相比基线跟踪器实现了明显改善。为了进一步验证iKUN的有效性,通过向DanceTrack添加语言描述,贡献了一个更具挑战性的RMOT数据集Refer-Dance。iKUN比TransRMOT取得了显著改善,即HOTA为29.06%对9.58%。

下面一起来阅读一下这项工作~

标题:iKUN: Speak to Trackers without Retraining

作者:Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su

机构:北京邮电大学人工智能学院、中国网络系统与网络文化北京重点实验室、中国北京文化和旅游部互动技术与体验系统重点实验室

原文链接:https://arxiv.org/abs/2312.16245

代码链接:https://github.com/dyhBUPT/iKUN

参考多目标跟踪(RMOT)旨在基于输入的文本描述跟踪多个对象。以往的研究通过简单地将额外的文本模块集成到多目标跟踪器中来实现它。然而,它们通常需要重新训练整个框架,并且在优化方面存在困难。在这项工作中,我们提出了一种可插入的知识统一网络,称为iKUN,以实现与现成跟踪器的即插即用通信。具体地,设计了一个知识统一模块(KUM),以自适应方式根据文本指导提取视觉特征。同时,为了提高定位精度,我们提出了一种神经版本的卡尔曼滤波器(NKF),以根据当前运动状态动态调整过程噪声和观测噪声。此外,为了解决文本描述的开放式长尾分布问题,提出了一种测试时间相似性校准方法,以伪频率来优化置信度分数。在Refer-KITTI数据集上进行了大量实验,验证了我们框架的有效性。最后,为了加快RMOT的发展,我们还通过扩展公开的DanceTrack数据集,增加了运动和着装描述,贡献了一个更具挑战性的数据集Refer-Dance。

与先前的RMOT框架进行比较,以及iKUN。 (a) 先前的方法将引用模块纳入多目标跟踪器中,需要重新训练整体框架。(b) 相反, iKUN可以直接插入现成的跟踪器之后,在训练时跟踪器被冻结。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

KUM的动机。给定一个轨迹和一组描述,(a) 在没有来自文本流的指导的情况下,要求视觉编码器输出一个单一特征以匹配多个文本特征;(b) 有文本指导时,视觉编码器可以为每个描述预测自适应特征。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

iKUN的总体框架。 视觉流首先嵌入本地对象特征flocal和全局场景特征fglobal,然后使用知识统一模块(KUM)对它们进行聚合。 紧随其后的是一个时间模型和一个视觉头,用于生成最终的视觉特征fv。 与此同时,文本流对文本特征ft进行编码。 最后,使用逻辑头来预测fv和ft之间的相似度得分。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

知识统一模块的三种设计。特征图的形状显示为它们的张量形状,批量大小为B。为了清晰起见,这里省略了最终的空间全局平均池化操作。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

Refer-KITTI。当前的SOTA方法,TransRMOT分别获得了38.06%、29.28%、50.83%的HOTA、DetA、AssA。相比之下,将iKUN集成到基于YOLOv8的各种现成跟踪器中,并取得了一致的改进,即41.25%至44.56%的HOTA。通过切换到与TransRMOT相同的检测器,即DeformableDETR,分别获得了48.84%、35.74%、66.80%的HOTA、DetA、AssA。重要的是,由于框架的灵活性,iKUN只需针对多个跟踪器进行一次训练。

此外,为了专注于关联和指代能力的比较,进行了oracle实验,以消除定位准确度的干扰。也就是说,根据地面实况修正了最终估计轨迹的坐标(x,y,w,h)。请注意,没有添加或删除边界框,也没有修改ID。在这种设置下,iKUN与TransRMOT相比也表现出色,即61.54%对54.50%的HOTA。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

KITTI。在表2中将设计的NeuralSORT与KITTI上的当前SOTA跟踪器进行比较。所有跟踪器都利用了来自YOLOv8的相同检测结果。为简单起见,使用了与Refer-KITTI相同的数据分割协议。结果表明,NeuralSORT在汽车和行人类别上均取得了最佳结果。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

消融实验。

知识统一模块。在表3中比较了KUM的三种设计。结果表明,所有这些策略都可以显著改善基准方法,这证明了文本指导机制的有效性。具体而言,"文本优先调制"实现了最佳的关联性能(AssA),但在检测方面表现不佳(DetA)。 "交叉相关"获得了更高的DetA,但更低的AssA。 "级联注意力"在HOTA和DetA指标上取得了最佳结果,并且在AssA指标上是可比的。最后,选择"级联注意力"作为KUM的默认设计。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

相似性校准。在表5中研究了映射函数f(·)中超参数a、b的影响。据报道,性能对变化的值具有鲁棒性。在这项工作中,选择a = 8和b = -0.1作为默认值,这带来了0.81%HOTA和2.09%AssA的性能增益。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

神经卡尔曼滤波器。首先以DeepSORT为基准,研究了NeuralSORT在KITTI上的不同组件在表4中的影响。最重要的是,对于汽车和行人,NKF将HOTA分别提高了1.32%和3.50%。其他技巧进一步为汽车和行人带来了1.58%和1.94%的增益。然后,我们以ByteTrack为基准,进一步研究了NKF在KITTI和Dance-Track上的影响。可以看到,在这两个数据集上的所有评估指标都有显著改善。

训练和推理时间。在Refer-KITTI上使用多个Tesla T4 GPU进行实验,并在表7中比较了TransRMOT和iKUN的训练和推理时间。可以观察到iKUN的时间成本要低得多。请注意,为了公平比较,跟踪过程也包括在推理时间内。

CVPR'24 | 即插即用!无需重新训练!iKUN:指定任何目标进行跟踪

这项工作提出了一种新颖的模块,iKUN,可以插入到任何多目标跟踪器之后,实现参考跟踪。为了解决一对多对应的问题,知识统一模块被设计为根据文本描述调节视觉嵌入。进一步提出了相似性校准方法,通过在开放测试集中估计的伪频率来细化预测得分。此外,还引入了两个轻量级神经网络到卡尔曼滤波器中,动态更新过程和观测噪声变量。iKUN的有效性通过在公开数据集Refer-KITTI和新构建的数据集Refer-Dance上的实验得到了证明。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。