天天看點

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

0. 這篇文章幹了啥?

傳統的多目标跟蹤(MOT)任務旨在逐幀跟蹤所有特定類别的對象,這在視訊了解中起着至關重要的作用。盡管已經取得了重大進展,但它存在着靈活性和泛化能力差的問題。為了解決這個問題,最近提出了參考多目标跟蹤(RMOT)任務,其核心思想是通過語言描述指導多目标跟蹤。例如,如果我們将"左側有移動的汽車"作為查詢輸入,跟蹤器将預測與描述相對應的所有軌迹。然而,由于靈活性的高代價,模型需要同時執行檢測、關聯和引用,是以,平衡子任務之間的優化成為一個關鍵問題。

為了完成這項任務,現有方法(例如TransRMOT)簡單地将文本子產品內建到現有的跟蹤器中。然而,這種架構有幾個固有的缺點:i)任務競争。一些MOT方法已經揭示了檢測和關聯之間的優化競争。在RMOT中,添加的引用子任務将進一步加劇這個問題。ii)工程成本。每當我們想要替換基線跟蹤器時,我們需要重寫代碼并重新訓練整個架構。iii)訓練成本。聯合訓練所有子任務會導緻高計算成本。

實質上,跟蹤和引用子任務的緊密捆綁是這些限制的主要原因。這引發了一個自然的問題:"是否可能解耦這兩個子任務?"。這項工作提出了一個"跟蹤到引用"的架構,其中插入了一個名為iKUN的子產品,它首先跟蹤所有候選對象,然後根據語言描述識别查詢對象,跟蹤器在訓練時被當機,優化過程可以專注于引用子任務。

是以,核心問題在于設計一個可插入的引用子產品。直覺的選擇是預訓練在超過4億個圖像文本對上進行對比學習的CLIP風格子產品,它的主要優勢是優秀的視覺概念和文本描述的對齊。為簡單起見,CLIP的視覺和文本流是獨立的。這意味着對于給定的視覺輸入,CLIP将提取一個固定的視覺特征,而不考慮文本輸入。然而,在RMOT任務中,一個軌迹通常對應于多個描述,包括顔色、位置、狀态等。很難将單個特征與多種特征比對起來。受到這一觀察的啟發,作者設計了一個知識統一子產品(KUM),以自适應地根據文本指導提取視覺特征。此外,為了減輕描述的長尾分布的影響,提出了一種測試時間相似性校準方法,以改進引用結果。其主要思想是估計開放測試集中描述的僞頻率,并使用它們來修正引用得分。

對于跟蹤子任務,卡爾曼濾波器被廣泛用于運動模組化。過程噪聲和觀測噪聲是兩個影響預測和更新步驟準确性的關鍵變量。然而,作為手工設計的子產品,這兩個變量由預設參數确定,并且難以适應運動狀态的變化。作者通過設計一個名為NKF的神經版本的卡爾曼濾波器來解決這個問題,該濾波器動态估計過程和觀測噪聲。

作者在最近釋出的Refer-KITTI [37]資料集上進行了大量實驗,iKUN顯示出明顯優勢,超過了現有解決方案。具體來說,iKUN在HOTA上超過了之前的SOTA方法TransRMOT 10.78%,在MOTA上超過了3.17%,在IDF1上超過了7.65%。還在KITTI和DanceTrack上進行了傳統MOT任務的實驗,提出的NKF相比基線跟蹤器實作了明顯改善。為了進一步驗證iKUN的有效性,通過向DanceTrack添加語言描述,貢獻了一個更具挑戰性的RMOT資料集Refer-Dance。iKUN比TransRMOT取得了顯著改善,即HOTA為29.06%對9.58%。

下面一起來閱讀一下這項工作~

标題:iKUN: Speak to Trackers without Retraining

作者:Yunhao Du, Cheng Lei, Zhicheng Zhao, Fei Su

機構:北京郵電大學人工智能學院、中國網絡系統與網絡文化北京重點實驗室、中國北京文化和旅遊部互動技術與體驗系統重點實驗室

原文連結:https://arxiv.org/abs/2312.16245

代碼連結:https://github.com/dyhBUPT/iKUN

參考多目标跟蹤(RMOT)旨在基于輸入的文本描述跟蹤多個對象。以往的研究通過簡單地将額外的文本子產品內建到多目标跟蹤器中來實作它。然而,它們通常需要重新訓練整個架構,并且在優化方面存在困難。在這項工作中,我們提出了一種可插入的知識統一網絡,稱為iKUN,以實作與現成跟蹤器的即插即用通信。具體地,設計了一個知識統一子產品(KUM),以自适應方式根據文本指導提取視覺特征。同時,為了提高定位精度,我們提出了一種神經版本的卡爾曼濾波器(NKF),以根據目前運動狀态動态調整過程噪聲和觀測噪聲。此外,為了解決文本描述的開放式長尾分布問題,提出了一種測試時間相似性校準方法,以僞頻率來優化置信度分數。在Refer-KITTI資料集上進行了大量實驗,驗證了我們架構的有效性。最後,為了加快RMOT的發展,我們還通過擴充公開的DanceTrack資料集,增加了運動和着裝描述,貢獻了一個更具挑戰性的資料集Refer-Dance。

與先前的RMOT架構進行比較,以及iKUN。 (a) 先前的方法将引用子產品納入多目标跟蹤器中,需要重新訓練整體架構。(b) 相反, iKUN可以直接插入現成的跟蹤器之後,在訓練時跟蹤器被當機。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

KUM的動機。給定一個軌迹和一組描述,(a) 在沒有來自文本流的指導的情況下,要求視覺編碼器輸出一個單一特征以比對多個文本特征;(b) 有文本指導時,視覺編碼器可以為每個描述預測自适應特征。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

iKUN的總體架構。 視覺流首先嵌入本地對象特征flocal和全局場景特征fglobal,然後使用知識統一子產品(KUM)對它們進行聚合。 緊随其後的是一個時間模型和一個視覺頭,用于生成最終的視覺特征fv。 與此同時,文本流對文本特征ft進行編碼。 最後,使用邏輯頭來預測fv和ft之間的相似度得分。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

知識統一子產品的三種設計。特征圖的形狀顯示為它們的張量形狀,批量大小為B。為了清晰起見,這裡省略了最終的空間全局平均池化操作。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

Refer-KITTI。目前的SOTA方法,TransRMOT分别獲得了38.06%、29.28%、50.83%的HOTA、DetA、AssA。相比之下,将iKUN內建到基于YOLOv8的各種現成跟蹤器中,并取得了一緻的改進,即41.25%至44.56%的HOTA。通過切換到與TransRMOT相同的檢測器,即DeformableDETR,分别獲得了48.84%、35.74%、66.80%的HOTA、DetA、AssA。重要的是,由于架構的靈活性,iKUN隻需針對多個跟蹤器進行一次訓練。

此外,為了專注于關聯和指代能力的比較,進行了oracle實驗,以消除定位準确度的幹擾。也就是說,根據地面實況修正了最終估計軌迹的坐标(x,y,w,h)。請注意,沒有添加或删除邊界框,也沒有修改ID。在這種設定下,iKUN與TransRMOT相比也表現出色,即61.54%對54.50%的HOTA。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

KITTI。在表2中将設計的NeuralSORT與KITTI上的目前SOTA跟蹤器進行比較。所有跟蹤器都利用了來自YOLOv8的相同檢測結果。為簡單起見,使用了與Refer-KITTI相同的資料分割協定。結果表明,NeuralSORT在汽車和行人類别上均取得了最佳結果。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

消融實驗。

知識統一子產品。在表3中比較了KUM的三種設計。結果表明,所有這些政策都可以顯著改善基準方法,這證明了文本指導機制的有效性。具體而言,"文本優先調制"實作了最佳的關聯性能(AssA),但在檢測方面表現不佳(DetA)。 "交叉相關"獲得了更高的DetA,但更低的AssA。 "級聯注意力"在HOTA和DetA名額上取得了最佳結果,并且在AssA名額上是可比的。最後,選擇"級聯注意力"作為KUM的預設設計。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

相似性校準。在表5中研究了映射函數f(·)中超參數a、b的影響。據報道,性能對變化的值具有魯棒性。在這項工作中,選擇a = 8和b = -0.1作為預設值,這帶來了0.81%HOTA和2.09%AssA的性能增益。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

神經卡爾曼濾波器。首先以DeepSORT為基準,研究了NeuralSORT在KITTI上的不同元件在表4中的影響。最重要的是,對于汽車和行人,NKF将HOTA分别提高了1.32%和3.50%。其他技巧進一步為汽車和行人帶來了1.58%和1.94%的增益。然後,我們以ByteTrack為基準,進一步研究了NKF在KITTI和Dance-Track上的影響。可以看到,在這兩個資料集上的所有評估名額都有顯著改善。

訓練和推理時間。在Refer-KITTI上使用多個Tesla T4 GPU進行實驗,并在表7中比較了TransRMOT和iKUN的訓練和推理時間。可以觀察到iKUN的時間成本要低得多。請注意,為了公平比較,跟蹤過程也包括在推理時間内。

CVPR'24 | 即插即用!無需重新訓練!iKUN:指定任何目标進行跟蹤

這項工作提出了一種新穎的子產品,iKUN,可以插入到任何多目标跟蹤器之後,實作參考跟蹤。為了解決一對多對應的問題,知識統一子產品被設計為根據文本描述調節視覺嵌入。進一步提出了相似性校準方法,通過在開放測試集中估計的僞頻率來細化預測得分。此外,還引入了兩個輕量級神經網絡到卡爾曼濾波器中,動态更新過程和觀測噪聲變量。iKUN的有效性通過在公開資料集Refer-KITTI和新建構的資料集Refer-Dance上的實驗得到了證明。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。