Long-term Correlation Tracking

论文地址：

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ma_Long-Term_Correlation_Tracking_2015_CVPR_paper.pdf

long_term_tracking tracking 阅读笔记

Long-term Correlation Tracking
- 简介
- 相关工作和问题背景
  - 相关滤波 Correlation tracking
  - tracking-by-detection
- 本文跟踪模块
  - Correlation tracking
  - Online Detector
- 算法流程

简介

论文致力于解决在目标跟踪过程中，由于目标的外观变化，导致跟踪失败的问题。影响目标外观的因素包括目标本身形变、突然的快速移动、严重遮挡和出界等。解决的方法是把跟踪问题分解问平移估计和尺度变化估计。同时，时间上的上下文关系可以提高平移估计的精度，而训练判别相关滤波器（discriminative correlation filter）可以更有效地估计尺度变化。

本文提出的方法基于两个重要的前期工作：

首先，是对于视频而言，相邻的两帧变化很小。即便目标被遮挡了，其周围背景的变化也是很小的。所以，可以对跟踪目标本身和其周围背景同时进行建模，此模型提取的特征对严重遮挡、快速移动和严重形变都有很强的鲁棒性。

其次，是提高检测器的精度。这样可以更好地估计目标的尺度变化，以及当跟踪失败时重新检测。

另外，论文定义了 tracking-by-detection 的两个研究问题：

其一是稳定性-灵活性困境。也就是说，一个十分保守的模型，比如只对第一帧目标建模，这个模型一定十分鲁棒，不易引入背景噪声导致跟踪失败（drifting）。而一个积极更新的模型，就很容易跟丢，因为会引入背景噪声。文章提出的解决办法是对目标和背景分别建模，两个模型有不同的更新策略。

其二是负样本采集的问题。之前负样本采集十分模糊，并且二分类的label对样本的空间关系的表达不够有效。本文采用Gaussian-weighted label来标注正负样本。

论文总的架构，是将长跟踪（long-term tracking）分解为对运动目标的尺度(scale) 和平移(translation) 的估计，并配合一个re-detection 策略。

w=argminw∑m,n|ϕ(xm,n)⋅w−y(m,n)|2+λ|w|2 w = a r g m i n w ∑ m , n | ϕ ( x m , n ) ⋅ w − y ( m , n ) | 2 + λ | w | 2

其中 ϕ ϕ 表示到核空间的映射， λ λ 是正则化参数。（通过正则化项使矩阵满秩。）

使用快速傅里叶变换，把卷积操作变为elementwise的乘积操作。

求得使目标方程最小化的 w w 为：

w=∑m,na(m,n)ϕ(xm,n)w=∑m,na(m,n)ϕ(xm,n)

其中 a a 由下面公式得到：

A=F(a)=F(y)F(ϕ(x)⋅ϕ(x))+λA=F(a)=F(y)F(ϕ(x)⋅ϕ(x))+λ

F F 表示离散傅里叶变换。

接下来进行预测：

对于一张大小为 M×N M × N 新的图片 z z ，计算响应图如下：

y^=F−1(A⊙F(ϕ(z)⋅ϕ(x^)))y^=F−1(A⊙F(ϕ(z)⋅ϕ(x^)))

其中， x^ x ^ 表示学习到的特征模型， ⊙ ⊙ 表示Hadamard product（其实就是element-wise product）。据此，预测这张图片上目标的位置，就通过找 y^ y ^ 上的最大值找到。

而本文使用的方法有一点点不同

首先，本文提出的方法是在同一张图像上学习两个filter。其中一个 Rc R c 同时考虑目标的特征和背景的特征，另一个 Rt R t 只考虑目标的特征。为了训练 Rc R c ，我们补充了一个空间权重。同时，为了减轻边界效应，对目标和上下文的响应加入余弦窗。

对于 Rc R c ，我们希望它能够及时更新，保证当目标遮挡、形变时能继续估算它的位移。所以，它需要一个较大的步长 α α 。亦即：

x^t=(1−α)x^t−1+αxtA^t=(1−α)A^t−1+αAt x ^ t = ( 1 − α ) x ^ t − 1 + α x t A ^ t = ( 1 − α ) A ^ t − 1 + α A t

其中t 为当前帧的index。

判别模型 Rt R t 在比较可靠的帧上习得。所谓比较可靠的帧，就是 y^ y ^ 最大值比较高的帧。（也就是说，和之前的模板匹配程度更高的帧）我们定义一个阈值 Ta T a , 只有当 y^ y ^ 的最大值大于 Ta T a 时才更新模板。（当目标发生遮挡时，不会更改filter）

在预测位置附近构造一个金字塔。令目标的大小为 P×Q P × Q ，金字塔层数为 N N ，则S={an|n=⌊−N−12⌋,⌊−N−32⌋,...,⌊N+12⌋}S={an|n=⌊−N−12⌋,⌊−N−32⌋,...,⌊N+12⌋}

对于 s∈S s ∈ S ，选取预测位置中心的 sP×sQ s P × s Q 区域， resize到 P×Q P × Q 大小。然后提取HOG特征。

然后取响应最大值：

s^=argmaxs{max(y^1),max(y^2),...,max(y^s)} s ^ = a r g m a x s { m a x ( y ^ 1 ) , m a x ( y ^ 2 ) , . . . , m a x ( y ^ s ) }

则当 max(y^s^)>Ta m a x ( y ^ s ^ ) > T a 时更新 Rt R t

Online Detector

当跟踪失败，我们需要使用一个检测器重新初始化跟踪器。那么，就需要知道什么时候跟踪就失败了。我们这里设置了第二个阈值 Tb T b ，如果 max(y^s^)<Tb m a x ( y ^ s ^ ) < T b 时重新检测。

算法流程

输入：

初始化目标检测框
输出：

预测的目标状态（state）： Xt=(x^t,y^t,s^t) X t = ( x ^ t , y ^ t , s ^ t )

两个回归模型 Rc,Rt R c , R t ，一个检测器 Drf D r f
repeat:

根据 (xt−1,yt−1) ( x t − 1 , y t − 1 ) 在第t帧上选取检索范围（seraching window）并提取特征

//平移估计

使用 RC R C 计算响应 Yt Y t ，并估计当前帧位置 (xt,yt) ( x t , y t )

//尺度估计

在 (xt,yt) ( x t , y t ) 附近构造图像金字塔，计算相关响应 ys y s .

使用 Rt R t 估计最佳尺度 s^ s ^

//此时，得到了第t帧的状态 (xt,yt,st) ( x t , y t , s t )

//重新检测

如果 max(y^s^)<Tb m a x ( y ^ s ^ ) < T b ：

{

调用检测器重新检测

如果检测得分大于阈值，则更新轨迹

}

//更新模型

更新 Rc R c

如果 max(y^s^)>Ta m a x ( y ^ s ^ ) > T a ：

{

更新 Rt R t

}

更新检测器
如果视频序列结束，停止循环

【目标跟踪】Long-term Correlation Tracking 阅读笔记Long-term Correlation Tracking

【目标跟踪】Long-term Correlation Tracking 阅读笔记Long-term Correlation Tracking

Long-term Correlation Tracking

简介

相关工作和问题背景

相关滤波 Correlation tracking

tracking-by-detection

本文跟踪模块

Correlation tracking

Online Detector

算法流程

继续阅读

论文笔记 Hierarchical Convolutional Features for Visual Tracking理论基础：算法结构：

论文笔记 Visual Tracking with Fully Convolutional Networks三个观察（之所以提出不同层CNN特征的利用，主要是基于下面3个观察）：算法流程如下：部分结果：

论文笔记 STCT: Sequentially Training Convolutional Networks for Visual Tracking3个基本网络介绍：算法流程：实验结果：

鱼眼摄像头实时动、静目标的检测，跟踪，分类

CFNet视频目标跟踪核心源码分析——tracking部分1. 论文信息2. tracking部分实现过程

MOSSE目标跟踪算法步骤

Siamese Instance Search for Tracking 阅读

【小白笔记】目标跟踪MFT论文笔记1 主要贡献2 跟踪框架3 实验

CSR-DCF视频目标跟踪源码运行笔记论文基本信息运行环境介绍准备运行

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking翻译摘要一、介绍2、相关工作3.回顾跟踪框架4、视觉跟踪Transformer5. Experiments6. ConclusionA. Ablation StudyB. Visualization

TCNN:Modeling and Propagating CNNs in a Tree Structure for Visual TrackingTCNN:Modeling and Propagating CNNs in a Tree Structure for Visual Tracking

论文笔记：Multiple Object Tracking: A Literature Review

High-Speed Tracking with Kernelized Correlation Filterssummary

CSR-DCF(Discriminative Correlation Filter with Channel and Spatial Reliability) 文章分析（一）

CFNet视频目标跟踪源码运行笔记（2）——training and then tracking论文信息运行环境介绍准备Crop图像生成训练跟踪