天天看點

YOLOV:讓圖像檢測器在視訊目标檢測偉大

作者:小小cv筆記
YOLOV:讓圖像檢測器在視訊目标檢測偉大

arxiv 2022 8月論文

論文題目:

YOLOV: Making Still Image Object Detectors Great at Video Object Detection

論文位址:

https://arxiv.org/abs/2208.09686

摘要

視訊目标檢測(VID)由于目标外觀的高度變化和某些幀的不同惡化是具有挑戰性的,從積極的方面來說,與靜态圖像相比,視訊中某一幀的檢測可以得到其他幀的支援,是以,如何跨不同幀聚合特征是VID問題的關鍵。現有的大多數聚合算法都是針對兩級檢測器定制的,但是,由于這類探測器的兩級性質,通常計算成本很高,這項工作提出了一種簡單而有效的政策來解決上述問題,它花費了少量的管理費用,但在準确性方面有顯著的提高,具體而言,與傳統的兩階段管道不同,我們主張将區域級的選擇放在一階段檢測之後,以避免處理大量低品質的候選框,此外,構造了一個新的子產品來評估目标幀與參考幀之間的關系,并指導聚合。

為了驗證我們的設計的有效性,進行了大量的實驗和消融研究,并揭示了它在有效性和效率上優于其他最先進的VID方法,我們基于yolox的模型可以實作很好的性能(例如,在一個2080Ti GPU上,在ImageNet VID資料集上,87.5%的AP50在30幀/秒以上),這使得它對大規模或實時應用具有吸引力。

引言

目标檢測,作為廣泛的基于視覺的智能應用程式中的一個關鍵元件的目标是同時定位和分類圖像中的物體。得益于卷積神經網絡(Convolutional Neural Networks, CNN)強大的能力,近年來提出了大量基于CNN的目标檢測模型,根據其檢測過程大緻可分為一級和二級目标檢測器兩大類。具體來說,兩階段檢測器首先選擇可能的對象區域(建議),然後對這些區域進行分類,基于區域的CNN (R-CNN)系列是兩級物體探測器的先驅,并有多種後續研究顯著提高了檢測的準确性。

給定區域級特征,這些用于靜态圖像的檢測器可以很容易地轉移到更複雜的任務中,如分割和視訊對象檢測,但由于兩階段的性質,效率是實際應用的瓶頸,而一級目标檢測器的定位和分類是由特征圖的密集預測共同直接産生的,YOLO家族和SSD是該組的代表,在不直接涉及地區提案的情況下,與上述兩級方法相比,一級檢測器的速度更優,适用于有實時需求的場景。雖然一級探測器的精度通常在開始時較低,但以下設計很大程度上緩解了準确性差距。

視訊對象檢測可以看作是靜止圖像對象檢測的進階版本,直覺地說,人們可以通過将幀一個一個地輸入靜态圖像對象檢測器來處理視訊序列,但是,通過這種方法,跨幀的時間資訊将被浪費,這可能是消除/減少單幅圖像中發生的模糊性的關鍵。如圖1所示,視訊幀中經常出現運動模糊、相機離焦、遮擋等退化現象,大大增加了檢測難度,例如,僅看圖1的最後一幀,人類很難甚至不可能判斷出物體在哪裡,是什麼,另一方面,視訊序列可以提供比單個靜止圖像更豐富的資訊,也就是說,相同序列的其他幀可能支援對某一幀的預測,是以,如何有效地聚合來自不同幀的時間資訊,對其準确性至關重要,從圖1可以看出,我們提出的方法給出了正确的答案。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

在文獻中,主要有兩種類型的架構聚合,即框級和特征級,這兩種技術路線可以從不同的角度提高檢測精度,框級方法通過連接配接邊界框将靜止物體檢測器的預測連接配接起來,形成管道,然後在同一個管道中細化結果,框級方法可以被視為後處理,它可以靈活地應用于一級和二級探測器。而對于特征級方案,關鍵幀的特征是通過從其他幀(又稱參考幀)中尋找和聚合相似的特征來增強的,兩階段方法從區域建議網絡(RPN)提取的骨幹網特征圖中賦予建議顯式表示,得益于這種特性,兩級檢測器可以很容易地遷移到視訊對象檢測問題中。

是以,大多數視訊目标檢測器都建立在兩級檢測器上,但是由于引入了尋找提議之間的關系,兩級視訊目标檢測器的速度進一步減慢,難以滿足實時場景的需要,與兩級基不同的是,提案是由一級檢測器的特征映射元素隐式表示的,盡管沒有對象的顯式表示,這些特征映射元素仍然可以從為VID任務聚合時間資訊中獲益,正如前面提到的,單階段政策通常比兩階段政策執行得更快,由這些考慮驅動,一個自然的問題出現了:我們是否可以将這種區域級設計用于僅包含像素級特征的一級檢測器,以建構一個實用的(準确和快速的)視訊對象檢測器?

貢獻 本文通過設計一個簡單而有效的由一級探測器特征聚合政策來回答上述問題,為了将參考幀的特征與關鍵幀的特征聯系起來,我們提出了一個特征相似度度量子產品來構造一個親和矩陣,然後用它來指導聚合。為了進一步緩解餘弦相似度的限制,在參考特征上定制了一個平均池化算子,這兩項操作消耗了有限的計算資源,但在精度上有顯著的提高,我們的模型被稱為YOLOV,在配備了提出的政策後,在單一2080Ti GPU(詳見圖2)上,可以在ImageNet VID資料集上以40+ FPS實作85.5% AP50的有前景的精度,這對于實際場景很有吸引力,通過進一步引入後處理,在30幀/秒以上的情況下,其AP50精度達到了87.5%。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

相關工作

本節将簡要回顧與此工作密切相關的目标檢測代表性方法。

靜止圖像中的目标檢測 由于硬體的發展,大規模資料集和複雜的網絡結構,目标檢測性能不斷提高,現有的目标檢測器主要分為兩階段方案和一階段方案。代表性的兩級探測器如RCNN, Faster RCNN, R-FCN,和Mask RCNN ,該組方法首先通過RPN選擇候選區域,然後通過一些特征提取子產品為候選區域提取特征,如RoIPooling和RoIAlign,最後通過檢測頭完成邊界回歸和分類。

還有許多成功的一級檢測器,如YOLO系列,SSD ,RetinaNet, FCOS ,與兩階段檢測器不同的是,一級檢測器對特征圖進行密集預測,直接給出位置和類機率,而不需要進行區域提出,由于端到端方式,一級檢測器通常比二級檢測器,然而,它們缺乏明确的區域級語義特征,而這些語義特征廣泛用于視訊對象檢測中的特征聚合,我們的工作試圖探索單級檢測器的像素級特征聚合的可行性。

視訊中的目标檢測 與靜态圖像目标檢測相比,某些視訊幀容易出現圖像退化現象,當關鍵幀被污染時,可以利用時間資訊進行更好的檢測,現有視訊目标檢測器的一個分支專注于視訊級别的後處理,這裡的方法組嘗試通過形成目标管道,在連續幀中細化靜止圖像檢測器的預測結果,另一個分支旨在增強關鍵幀的特征,希望通過利用(標明的)參考幀的特征來緩解退化。

這些方法可以大緻分為基于光流的和基于注意力的和基于跟蹤的方法,深度特征流首先引入了圖像級特征對齊的最優流,FGFA采用光流沿運動路徑聚合特征,考慮到圖像級特征聚合的計算成本,提出了幾種基于注意的方法,SESLA作為代表,根據區域級特征之間的語義相似度,提出了一種遠端特征聚合方案,RDN受到關系網絡用于靜态圖像檢測的關系子產品的啟發,捕獲了物體在空間和時間背景下的關系,此外,MEGA設計了一個記憶體增強的全局-局部聚合子產品,以更好地模組化對象關系,或者,TROIA 執行ROI對齊操作進行細粒度的特征聚合,而HVR-Net 內建視訊内和視訊間的提議關系以進一步改進。

此外,MBMBA通過引入記憶庫擴大了參考特征集。QueryProp注意到視訊檢測器的高計算成本,并試圖通過一個輕量級子產品來加快這個過程,除了基于注意力的方法,D&T嘗試通過建構不同幀特征的相關映射,以跟蹤的方式解決視訊目标檢測。雖然這些提到的方法提高了精度,它們的檢測大多基于兩級檢測器,是以推理速度相對較慢。

方法論

考慮到視訊的特征(各種退化和豐富的時間資訊),如何從其他幀中尋找目标幀(關鍵幀)的支援資訊,而不是單獨處理幀,是提高視訊檢測精度的關鍵,最近的嘗試在準确性方面的顯著改善證明了時間聚合對該問題的重要性。然而,現有的大多數方法都是基于兩階段的技術,如前所述,與單級基相比,它們的主要缺點是推理速度相對較慢,為了減輕這種限制,我們把區域/特征選擇放在一級檢測器的預測頭之後。

在本節中,我們選擇YOLOX作為基礎來介紹我們的主要主張,我們提出的架構如圖3所示,讓我們回顧一下傳統的兩階段管道:1)首先“選擇”大量候選地區作為建議;2)确定每個提案是否是一個對象,以及它屬于哪一類,計算瓶頸主要來自于處理大量的低置信度候選區域,從圖3可以看出,我們的管道也包含兩個階段,不同的是,它的第一個階段是預測(丢棄大量低置信度的區域),而第二個階段可以被視為區域級别的細化(通過聚合利用其他架構)。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

根據這一原理,我們的設計可以同時受益于一級檢測器的效率和時間聚合獲得的準确性,值得強調的是,如此小的設計差異導緻了巨大的性能差異。所提出的政策可以推廣到許多檢測器,如YOLOX, FCOS 和PPYOLOE。

我們的設計

從人類可能的角度來看,識别過程将首先連結時間中的相關執行個體,并确定它們屬于哪個類,直到收集到足夠自信的消息,然後,這種決心可以傳播給不太自信的案例,多頭注意機制作為Transformers的關鍵部分,似乎很适合這種情況,提高了遠端模組化的能力,給定一個序列Z,查詢矩陣、鍵矩陣和值矩陣分别被包裝為Q、K和V,自我注意可以通過以下方式計算:

YOLOV:讓圖像檢測器在視訊目标檢測偉大

其中d是Q(也是K)中每個特征的次元。并行執行m個自注意,通過簡單地将它們連接配接在一起,就可以得到多頭注意:

YOLOV:讓圖像檢測器在視訊目标檢測偉大

現代基于兩階段的視訊對象檢測器通常通過RPN等方法擷取候選區域進行特征聚合,作為代表,RelationNet首先将上述多頭注意引入靜止對象檢測任務,将一系列提議視為輸入,ROI池和/或對齊應用于這些建議,以提取區域級特征,然而,一級檢測器直接根據特征圖進行密集預測,簡單地将區域級特征聚合轉移到一級檢測器的整個特征映射上,将導緻大量的計算成本,針對這一問題,我們提出了一種适合多頭注意的特征選擇政策。

FSM: Feature Selection Module 由于大多數預測都是低置信度的,是以在從特征圖中選擇(高品質)候選點時,一級檢測器的檢測頭是一種自然而理性的選擇,按照RPN的過程,我們首先根據置信度分數選出k個(例如750個)最前的預測,然後,非最大抑制(non-maximum Suppression, NMS)選擇固定數量的a(例如,a=30)來減少備援。

為了獲得視訊目标分類的特征,需要在很大程度上保證基礎檢測器的準确性,在實踐中,我們發現直接在分類分支中聚合所選特征,反向傳播聚合特征的分類損失,會導緻訓練不穩定,為了解決上述問題,我們在模型頸部插入兩個3 × 3卷積(Conv)層作為一個新的分支,稱為視訊對象分類分支,生成特征進行聚合,然後,我們将來自視訊分類分支和回歸分支的關于位置的特征輸入到我們的特征聚合子產品。

FAM:特性聚合子產品 現在我們來到連接配接相關roi的步驟,對于某個(關鍵)幀,令F = {C1, C2,…, Cf;R1, r2,…, Rf}表示FSM選擇的特征集,另外,Ci∈Rdq×a =[Ci1, ci2,…cia]和Ri∈Rdq×a=[ri1, ri2,…,ria]指定分别從視訊分類分支和回歸分支得到F中第i幀的特征。廣義餘弦相似度可以說是用于計算特征之間的相似度或注意力權重的最廣泛的度量,僅僅參考餘弦相似度就可以找到與目标最相似的特征,然而,當關鍵幀發生退化時,所選擇的與這些相似特征相對應的方案很可能存在相同的問題,我們将這種現象稱為同質性問題。

為了克服這一問題,我們進一步考慮了來自基數的預測置信度,記為P = {P1, P2,…, Pf} with Pi = [pi1, pi2,…,pia],在本文中,Pi的每一列隻包含2個分數,分别來自分類頭和回歸頭的分類分數和IoU分數,然後,建構查詢、鍵和值矩陣并将其輸入多頭注意。例如,Qc和Qr分别是将分類分支和回歸分支的特征沿時間維(即Qc∈Rfa×d = LP([C1, C2,…, Cf]T), Qr∈Rfa×d = LP([R1, R2,…, Rf]T),其中LP(·)為線性投影算子),而其他則類似地進行。通過注意中的比例點積,得到對應的Ac = QcKTc /√d和Ar = QrKTr /√d,集合P中的所有分數,得到一個矩陣[P1, P2,…, Pf],大小為2 ×fa。為了使這些分數符合注意權重,我們建構了兩個矩陣,即Sr∈Rfa×fa和Sc∈Rfa×fa,分别重複兩行f a次,是以,分類和回歸分支的自我注意結果為:

YOLOV:讓圖像檢測器在視訊目标檢測偉大

o代表阿達瑪積,為了更清楚,設sij表示S中的(i, j)第1個元素,Qi和Kj分别表示Q的第i行和K的第j行,最大權值中的每個系數為sij·Qi(Kj)T = Qi(sij·Kj)T,也就是說,自注意不僅考慮查詢和關鍵條目之間的相似性,還考慮關鍵條目的品質,注意,由于主要目的是細化分類,SAc(C)和SAr(R)共享相同的值矩陣Vc,我們的實驗證明了用Eq(3)代替原來的QK方式,在多頭注意中(稱為親和方式)可以顯著提高視訊目标檢測器的性能,此外,我們将Vc與Eq.(3)的輸出連接配接起來,以更好地保留初始表示,通過:

YOLOV:讓圖像檢測器在視訊目标檢測偉大

與傳統的ViT不同的是,位置資訊沒有嵌入,因為長時間範圍内的位置不會像所說的那樣有幫助,此外,考慮到softmax的特性,可能會有一小部分參考特征占有很大一部分權重,換句話說,它往往忽略了權重較低的特征,限制了參考特征可能的後續使用的多樣性。為了避免這樣的風險,我們在參考特性(a.p.)上引入了一個平均池化,具體地說,我們選擇相似性得分高于門檻值τ的所有引用,并将平均池應用于這些幸存點,注意,該工作中的相似度是通過N(Vc)N(Vc)T計算的,算子N(·)表示層歸一化,保證數值在一定範圍内,進而消除尺度差異的影響。

通過這樣做,我們可以維護來自相關特性的更多資訊,然後将平均池特征和關鍵特征傳輸到一個線性投影層進行最終分類,該過程如圖4所示。有人可能會問N (Qc)N(Kc)T或N(Qr)N (Kr)T是否可以作為相似度,事實上,這是另一種選擇,但在實際操作中,由于Q和K的差異,它并不像我們在訓練中選擇的那樣穩定。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

實驗驗證

實作細節

與前面的工作類似,我們也從YOLOX提供的COCO預訓練權值初始化基檢測器,我們将ImageNet VID中的視訊和ImageNet DET中的視訊與我們的訓練資料中的相同類結合起來,具體來說,ImageNet VID包含3,862個用于訓練的視訊和555個用于驗證的視訊,VID資料集中有30個類别,即ImageNet DET的200個基本級别類别的子集。考慮到視訊幀的備援,我們在VID訓練集中随機抽取1/10幀,而不是全部使用,在2個gpu上,SGD訓練了7個周期的基探測器,批大小為16,在學習率方面,我們采用YOLOX中使用的餘弦學習率計劃,一個epoch進行熱身,并關閉最後兩個epoch的強資料增強,在将特征聚合子產品內建到基本檢測器中時,我們對其進行了微調,以在單個2080Ti GPU上實作150K疊代,批處理大小為16,此外,我們對第一個15K疊代使用熱身,對其餘疊代使用餘弦學習率計劃。

隻對YOLOX預測頭中的線性投影層、新增的視訊對象分類分支和多頭注意進行了微調,基本上排除了其他因素的影響,當模型中更多的層參與BP過程時,可以得到進一步的改進,訓練特征聚合子產品,幀數f設定為16,NMS的門檻值設定為0.75,進行粗糙的特征選擇。而在生成最終檢測框時,我們可以将NMS的門檻值設定為0.5,以捕獲更有信心的候選對象,在訓練階段,圖像的大小随機調整為352 × 352到672 × 672,步幅32,在測試階段,将圖像統一調整為576 × 576,AP50和推理速度是兩個名額,分别反映在準确性和效率方面的性能,關于推理速度,除非另有說明,我們在2080Ti GPU上測試了所有具有fp16精度的模型。

消融實驗

關于幀抽樣政策 研究幀采樣政策以平衡精度和效率是視訊目标檢測的關鍵,在之前的基于兩階段的方法中,已經讨論了幾種全局和局部采樣方案,對于全局采樣方案,fg幀從整個視訊中随機選取,對于局部采樣幀,采用fl連續幀,為了觀察不同采樣政策的效果,我們在全局和局部模式下改變參考幀的數量,數值結果見表1,僅使用3個全局參照系的性能已經超過使用39個局部參照系的性能,作為權衡,我們對其餘的實驗采用fg=31的全局抽樣政策,如表1所示。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

在單一架構内的提議數量 在本實驗中,我們将FSM中每幀a的最自信提議數量從10調整到100,以觀察其對性能的影響,如表2所示,随着a的增加,精度不斷提高,并趨于平穩,直到達到75,由于自我注意的複雜性是O(n2)考慮到輸入提案的數量,每幀拖放太多提案将會産生巨大的影響提高時間成本,考慮到速度和準确性,我們采用了一個a= 30,這比兩階段RDN方法中使用的75個建議的最佳設定要小得多。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

論FAM的有效性 為了驗證關聯方式(A.M.)和參考特征的平均池(A.P.)的有效性,我們評估了使用和不使用這些子產品的性能,表4的結果表明,這些設計都可以幫助特征聚合從單階段捕獲更好的語義表示。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

與YOLOV-S (69.5% AP50)相比,配備A.M.的YOLOV-S隻提高了7.4%的精度,在為YOLOV-S同時配備A.M.和a.p.時,(完整的YOLOV-S),在AP50中性能達到77.3%,與YOLOV s相比僅花費約2ms的時間,為了更有說服力,我們還将我們的設計插入到yolx-l和yolx-x中,表5給出了yolox和yolov的詳細對比,†表示在微調我們的版本時使用強增強(如MixUp)和Mosaic ,在AP50中,我們的yolov的表現一直超過各自基線的7%。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

此外,我們提供了兩個案例來直覺地展示我們的FAM的進步,它們是罕見姿勢的獅子案例和運動模糊的狐狸案例,如圖5所示,在不喪失概括性的前提下,針對不同的特征選擇模式,列出了前四個參考建議,包括餘弦相似度、多頭注意的QK方式和我們的親和方式,如前所述,餘弦方法選擇與鍵建議最相似但遭受與鍵建議相同退化問題的建議,QK方式雖然緩解了這一問題,但明顯不如親和方式,通過引入置信度分數作為指導,我們的方法選擇了更好的方案,進一步提高了檢測精度。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

與先進方法的比較

表6總結了競争對手的詳細資訊,包括FGFA,SELSA 、RDN 、MEGA 、TROIA 、MAMBA、HVR、TransVOD和QueryProp,可以觀察到,我們的方法可以達到85.5%的AP50,每幀21.1 ms,在REPP的幫助下,它達到87.5%的AP50,花費額外的6毫秒,在推理效率方面,我們的方法比其他方法要快得多,具體來說,在表6的上半部分,我們報告了所涉及的競争模型的性能,沒有采取任何後處理,由于單級檢測器的特性和我們的政策的有效性,yolov可以顯著地利用檢測精度和推理效率,為了進行公平的比較,表6中列出的所有模型都使用相同的硬體環境進行了測試,除了MAMBA和QueryProp,表6的下半部分報告了我們的YOLOV和其他SOTA模型的後處理結果,在i7-8700K CPU上測試了後處理的時間成本。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

額外關注

不同運動速度下的表現 我們分别評估了在ImageNet VID類别上的慢速、中速和快速移動對象的檢測性能,類别是由它們在鄰近幀之間的對象之間的平均IoU評分定義的(慢:IoU> 0.9,中:0.9≥IoU≥0.7,快:0.7 >IoU),另外兩種方法FGFA 、SELSA和我們的基檢測器使用相同的後處理政策進行了比較,如表7所示,我們的模型的有效性在每個類别上都得到了明确的驗證,随着移動速度的增加,改善程度也随之增大。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

不同批次的推斷 在主論文中,我們在批量大小= 1的情況下對我們的模型進行了測試,提取的骨架參考幀特征暫存,考慮到離線情況,我們可以向模型輸入多個幀,并同時給出這些幀的結果,即批處理推理方式,這樣可以進一步提高推理速度,在這個設定中,我們從視訊中随機選擇32幀形成一個批次,并測試我們的模型的速度,得益于批量推理,我們的小模型、大模型和xlarge模型的推理時間分别推導為3.70 ms、7.13 ms和12.10 ms,如表8所示。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

應用于其他基檢測器 為了驗證所提政策的泛化能力,我們還在廣泛使用的一級檢測器PPYOLOE和FCOS上進行了實驗,特别是對于PPYOLOE,它在不同的FPN級别上有不同的通道,實作多尺度特征聚合,我們直接修改不同尺度下檢測頭的通道數為相同,而對于FCOS,骨幹是ResNet-50,在原始體系結構中,有5個FPN級别用于處理大圖像尺寸(例如,1333 × 800)的圖像,為了比對ImageNet VID的情況,我們保持3個FPN級别,最大的下采樣率為32,對于訓練過程和其他超參數設定,我們隻需保持它們與YOLOX中的相同,表9顯示,我們的政策可以在AP50方面持續提高不同基檢測器5%以上,值得注意的是,為不同的基檢測器搜尋更合适的超參數可以獲得更好的性能。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

對OVIS資料集的評估 除了在ImageNet VID上的實驗,我們還在遮擋視訊執行個體分割(OVIS)資料集上驗證了我們的視訊對象檢測器,在這個資料集中有607個用于訓練的視訊和140個用于驗證的視訊,涉及25個類,平均每幀4.72個對象,大部分對象遭受嚴重遮擋,OVIS資料集帶來了更多具有挑戰性的場景,對于訓練,COCO預訓練的權重被調整為10個周期,批次大小為4個gpu上的8個,視訊目标檢測器訓練了7個階段,此外,每幀建議數被設定為75,以比對對象密度,圖像大小從480 × 720随機調整到800 × 1200, 32步幅(較短的一側),用于多尺度訓練,在測試階段,将圖像統一調整為640 × 960,我們保持其他設定與VID實作相同,表10顯示了我們的性能和在伺服器OVIS上評估的基本檢測器。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

可視化對比 我們提供了通過我們的模型、模型的基礎-yolox和SOTA兩級視訊對象檢測器-mega(如圖6)對VID資料集中的幾個樣本進行檢測的可視化結果,以便進行更直覺的比較。揭示了模型在不同條件下的退化的類型魯棒性,我們選擇了三種具有挑戰性的情況(a)運動模糊,(b)罕見姿勢,和(c)遮擋。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

從圖中可以看出,在沒有時間資訊的情況下,即使是人類,基礎檢測器也很難準确地判斷出目标是什麼,例如(a)的最後一幀,(b)的第一幀,(c)的第三幀,通過配備我們的特征聚合子產品,預測的準确性得到了顯著提高,我們想再次強調,我們的模型比MEGA快10倍左右,此外,我們還将我們的模型與OVIS資料集樣本上的基礎檢測器進行了可視化比較(圖7),我們可以看到,OVIS中嚴重的遮擋限制了基礎檢測器的性能,而我們的方法顯著地緩解了這個問題。

YOLOV:讓圖像檢測器在視訊目标檢測偉大

結論

本文開發了一種兼顧檢測精度和推理效率的實用視訊目标檢測器,為了提高檢測精度,設計了一個特征聚合子產品來有效地聚合時間資訊,為了節省計算資源,與現有的兩階段檢測器不同,我們提出将區域選擇放在(粗略)預測之後,這個細微的變化使我們的探測器顯著提高了效率,實驗和消融研究以驗證我們的政策的有效性,以及它比以往的技術進步,該方法的核心思想簡單、通用性強,可以啟發進一步的研究工作,拓寬視訊目标檢測的應用場景。

繼續閱讀