天天看點

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

作者:極市平台

作者丨Shi

編輯丨極市平台

本文主要介紹CVPR2023的論文《TriDet: Temporal Action Detection with Relative Boundary Modeling》,本方法在one-stage的時序動作檢測任務上,取得了HACS, Thumos14, Epic-kitchen三個資料集的SOTA性能。

論文位址:https://arxiv.org/abs/2303.07347

代碼位址:https://github.com/dingfengshi/TriDet

首先我們先簡單介紹一下本文主要解決的兩個問題:

第一個問題是,在時序動作檢測(TAD)任務裡,動作的邊界很多時候是不明确的,我們曾嘗試通過用Actionness(即每個時刻是否為動作的機率)來區分動作的邊界。但我們發現,訓練好的檢測器對不同視訊的Actionness預測存在較大差異,主要表現在兩方面:1. 響應強度不一緻,有些視訊動作内部的Actionness明顯高于背景位置,有些則隻稍高一些。2. 除了動作内部有較高的Actionness外,有些視訊還會在超出邊界的時刻也有較高響應。是以,用單一門檻值來劃分動作邊界并不靈活。一個比較直覺的方法是利用不同時刻之間的相對關系來模組化邊界。這就是本文提出的Trident-head的Motivation。

第二個問題和Transformer相關,近年來,Transformer在TAD領域也有不少應用,包括我們之前發表在ECCV2022上的ReAct[5] 方法。但我們發現,單純使用Transformer并不能顯著提升檢測性能,相反,Pipeline的設計往往更重要。比如去年中了ECCV2022的Actionformer[3] (感謝他們solid的工作,也統一了不同資料集的Pipeline!),采用了LongFormer[4] 的local self-attention來建構網絡。我們實驗發現,即使去掉了它的self-attention,性能也不會下降太多。是以是什麼讓原始self-attention版本的Transformer在TAD任務裡啞火,這個問題引起了我們的好奇。剛好之前讀到過谷歌大佬Yihe Dong的論文[1] ,裡面推導了self-attention會使輸入特征矩陣以雙指數速度收斂到秩為1(丢帙問題)。換句話說,self-attention會讓輸入序列變得越來越相似,但是殘差連接配接和MLP可以減緩這個問題。這個結論啟發了我們:我們發現動作識别任務上pretrain過的backbone提取到的特征往往具有較高的相似性,在HACS資料集上跟蹤原始self-attention的Transformer每層輸出特征時,我們也觀察到self-attention降低了每個時刻特征的可區分性,這對TAD任務來講是非常不利的。

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

于是,我們分析了self-attention,發現問題是因為在輸入特征集合非常相似的情況下,通過機率矩陣進行凸組合導緻特征相似度增大(具體的推導煩請大家看補充材料啦!)。此外,self-attention還需要計算成對相似度矩陣,增加了計算負擔。是以我們想要取其精華去其糟粕,用卷積代替self-attention來實作這一目标。這也是我們提出的SGP層的原因。

方法:

我們論文的兩個主要貢獻,Trident-head和SGP層的設計思路就比較直覺了。

Trident-head:

Trident-head是一種替換掉原始回歸頭的子產品。給定一個視訊序列,與之前隻根據每個Instant特征回歸該Instant到動作邊界的距離的Anchor-free方法不同,我們的Trident-head結合了Instant特征和相鄰B個Instant特征來回歸邊界。具體來講,我們預測三個分支:開始邊界分支、結束邊界分支以及中間偏移量分支。開始邊界分支、結束邊界分支分别預測的是每個時刻作為開始邊界和結束邊界的響應強度,而中間偏移量分支的預測的是,以某個instant為參考時,其左右相鄰的局部時間集合中每個時刻作為動作起點或者終點的響應強度。然後我們通過在局部視窗内計算期望值,得到每個 Instant 到邊界的預測值。比如估計第個 instant 到動作起點的距離 ,就可以通過如下計算:

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

這裡 和 分别是開始邊界分支和中間偏移量分支的預測強度。

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

值得一提的是,關于局部視窗的大小,因為FPN的存在,我們可以簡單地對每一層都采用相同的視窗,再通過每層FPN的感受野大小将起點時刻和終點時刻重新解碼:

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

SGP:

我們論文的另一個主要貢獻是SGP層的設計。SGP層利用了depth-wise convolution[2]. 來降低運算量,同時實作了類似self-attention類instant特征之間的互動。為了抑制丢帙問題,我們在Instant-level分支中引入了視訊平均特征,通過拉大每個時刻的特征和視訊的平均特征的距離,進而增加時序特征的可區分性。而在Window-level分支中,我們采用了不同尺度的卷積來提取局部資訊,并且增加了ψ分支,來讓網絡自适應的選擇關注哪個尺度的特征。此外,我們還發現将第二個Layer Norm替換為Group Norm能進一步提升網絡效果。SGP層的結構如下圖所示。

實驗結果:

在實驗結果中,我們的方法取得了THUMOS14,HACS和EPIC-KITCHEN資料集上One-Stage方法的SOTA性能,相比之前的SOTA模型ActionFormer有着較大的提升。

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!
CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!
CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

在速度方面,我們的方法也比ActionFormer有顯著提升。在THUMOS14資料集上,我們的方法的運算時延隻有ActionFormer的74.6%,顯示出較高的效率。

CVPR2023|TriDet:高效時序動作檢測網絡,重新整理三個資料集SOTA!

還有其他的細節,還得請大家關注我們Paper的具體内容以及補充材料啦!

[1]. Dong, Yihe, Jean-Baptiste Cordonnier, and Andreas Loukas. "Attention is not all you need: Pure attention loses rank doubly exponentially with depth." International Conference on Machine Learning. PMLR, 2021.

[2]. Chollet, François. "Xception: Deep learning with depthwise separable convolutions." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

[3]. Zhang, Chen-Lin, Jianxin Wu, and Yin Li. "Actionformer: Localizing moments of actions with transformers." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part IV. Cham: Springer Nature Switzerland, 2022.

[4]. Beltagy, Iz, Matthew E. Peters, and Arman Cohan. "Longformer: The long-document transformer." arXiv preprint arXiv:2004.05150. 2020.

[5]. Shi, Dingfeng, et al. "React: Temporal action detection with relational queries." Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part X. Cham: Springer Nature Switzerland, 2022.

繼續閱讀