作者丨GlobalTrack
編輯丨極市平台
論文連結:https://arxiv.org/pdf/2303.10826.pdf
源碼連結:https://github.com/jiawen-zhu/ViPT
簡介
基于RGB的跟蹤算法是視覺目标跟蹤的一個基礎任務。近些年已經出現了大量精彩的工作。盡管獲得了有希望的結果,但在一些複雜和角落場景中(極端照明,背景雜波和運動模糊),基于純RGB序列的目标跟蹤算法仍然容易失敗。多模态跟蹤吸引了很多研究關注,由于可以通過跨模态補充資訊獲得更魯棒追蹤結果。多模态包括RGB+深度(RGB-D),RGB+熱紅外(RGB-T)和RGB+事件(RGB-E)。
多模态追蹤的主要問題是缺乏大規模資料集。考慮到資料集的限制,多模态跟蹤方法通常使用預訓練的基于RGB跟蹤器,并對面向任務的資料集進行微調。盡管多模态跟蹤有效,但面向任務的全調優方法有一定缺點:1. 對模型進行全微調是即費事又低效,且對參數存儲負擔很大,對很多應用程式不友好,且很難轉移部署,2. 由于标簽有限,無法利用大規模資料集上訓練的基礎模型預訓練知識。
最近在NLP領域中,研究者将文本提示(prompt)注入下遊語言模型,以有效利用基礎模型的表示潛力,此方法稱為提示調整(Prompt-tuning)。之後一些研究嘗試當機整個上遊任務模型,僅在輸入側添加一些可學習參數學習參數以學習有用的視覺提示。一些研究展示該方法有巨大的潛力并期待成為全微調的替代。
本文設計了一個可以用于RGB-D,RGB-T和RGB-E跟蹤的視覺提示追蹤架構。在提示器幫助下,現有的基礎模型可以有效地從RGB域适應下遊多模态跟蹤任務。另外設計了模态互補提示器(Modality-complementary prompter,MCP),為面向任務的多模态跟蹤生成有效的視覺提示。該子產品中輔助模态輸入簡化為少量提示,而不是額外的網絡分支。
相關方法
視覺提示學習
長期以來,采用微調技術利用預先訓練的大模型來執行下遊任務。在下遊資料進行訓練時,通常需要更新所有模型參數。這種方法參數效率低,并且需要重複的面向任務拷貝和整個預訓練模型存儲。近期作為一種新範式(提示學習 Prompt Learning),可以大大提高了下遊自然語言處理任務性能。同時提示學習也在計算機視覺領域顯示了其有效性。例如Visual Prompt Tuning(VPT)為Transformer準備了一組可學習參數,并在20個下遊任務上顯著打敗了全微調。AdaptFormer将輕量化子產品引入ViT中,超過全微調方法
本文方法
問題定義
多模态提示追蹤
這裡防止階段感覺MCP,以充分利用不同模态語義了解。直接将提示加入基礎模型中間層特征也使本文ViPT算法快速且簡單地應用在已有的預訓練基礎跟蹤器中。與包含可訓練地提示學習網絡和預測頭的提示調整方法不同,本文ViPT中所有RGB模态相關網絡參數全部當機,包括更新檔嵌入,特征提取互動和預測頭。
模态互補提示器
一些研究開始探索在當機的預訓練模型中引入一些可學習參數學習有效的視覺提示。通過微調一小部分參數,在大範圍視覺任務上取得了令人映像深刻的性能。更有挑戰性的任務不僅是縮小上遊與下遊任務差異,而且要适當有效地利用模态間資訊。本文的MCP子產品用于學習兩個輸入流的提示,過程描述為:
之後通過加性綁定獲得混合模态嵌入,學習得到的嵌入可以表示為:
通過僅微調一些提示學習的參數,模型能在較短時間的幀内獲得收斂。
提示微調優勢
- 提示微調比全微調有更好的适應性,尤其是對于大規模資料稀缺的下遊多模态跟蹤任務。在下遊資料集完全微調可能會破壞預訓練參數品質,跟蹤器更可能過拟合或得到次優狀态。
- 提示微調允許RGB和RGB+輔助模态跟蹤之間更緊密關聯,以學習模态互補性。RGB和輔助模态具有不同資料分布,輔助模态輸入提供額外特征提取網絡可能會降低模态間連通性。
- 提示微調可訓練參數顯著比全微調少,隻需更少的訓練周期就能部署在各種下遊追蹤場景且不需要多次存儲大量基礎模型參數。
實驗
DepthTrack是一個大規模長期RGB-D跟蹤基準。盡管本文的ViPT是一種短期算法,表1顯示ViPT超過了所有之前的SOTA跟蹤器并獲得了最高的F-score,比基礎方法顯著提升6.5%
VOT-RGBD2022是最新的RGB-D基準,包含127個短期序列。選擇期望平均重疊(Expected average overlap,EAO)為評價名額。表2給出了相關實驗結果。可以看出本文ViPT方法超過先前的方法,獲得了0.721 EAO,超過基礎模型4.5%
RGBT234是大規模RGB-T跟蹤資料集,包含具有可見光和熱紅外對的234個視訊。MSR和MPR作為評價名額。表3給出了相關實驗結果比較。可以看出本文ViPT取得了最高的MSR(61.7%),MPR(83.5%),超過了各精心設計的RGB-T跟蹤器,在MSR名額上超過ProTrack1.8%。
LasHeR是一個大規模高度多樣性短期RGB-T跟蹤基準。在包括245各測試視訊序列。圖4給出了相關實驗結果。可以看出ViPT大幅度超過了以前所有SOTA方法,成功率和精度名額上分别超過第二位算法10.5%和11.3%。
VisEvent是目前最大的視覺-事件基準資料集,本文在320各測試視訊上進行比較。本文僅使用由原始事件資料變換來的事件圖像。圖5給出了相關實驗結果。ViPT比OSTrack算法相比在成功率和精度上分别超過5.8%和6.3%。