天天看點

ICCV2023|AlignDet:在各種檢測器的所有子產品實作無監督預訓練

作者:極市平台

作者丨Lovely Panda

來源丨GiantPandaCV

編輯丨極市平台

文章簡介

大規模預訓練後再進行下遊微調的方法已經被廣泛地應用于各種目标檢測算法中。在本文中,我們揭示了目前實踐中預訓練和微調過程之間存在的資料、模型和任務方面的差異,這些差異隐式地限制了檢測器的性能、泛化能力和收斂速度。為此,我們提出了AlignDet方法,這是一個通用的預訓練架構,可以适配各種現有檢測器,以減輕這些差異。AlignDet将預訓練過程分解為兩個階段,即圖像域預訓練階段和框域預訓練階段。圖像域預訓練優化檢測骨幹網絡以捕獲整體的視覺抽象,框域預訓練學習執行個體級語義和任務感覺概念以初始化骨幹網絡之外的部分。通過融合自監督預訓練的骨幹網絡,可以實作在各種檢測器中所有子產品進行無監督預訓練。如圖1所示,大量實驗表明,AlignDet可以實作對各種協定進行顯著改進,如檢測算法、模型骨幹網絡、資料設定和訓練計劃。例如,在更少的訓練輪數下,AlignDet分别為FCOS提高了5.3 mAP,RetinaNet提高了2.1 mAP,Faster R-CNN提高了3.3 mAP,DETR提高了2.3 mAP。

原文連結:https://arxiv.org/abs/2307.11077

ICCV2023|AlignDet:在各種檢測器的所有子產品實作無監督預訓練

圖1 對象檢測中預訓練和微調階段之間的資料、模型和任務差異說明。在大多數預訓練階段,隻有骨幹通過以對象為中心的資料集(如ImageNet)上的分類任務監督進行更新。然而,整個檢測器在基于多對象的資料集中進行微調,通過分類和回歸任務進行監督。通過自監督的預訓練減少這些差異,AlignDet在COCO上的各種檢測算法、模型主幹、資料設定和訓練計劃方面實作了顯著增強。項目頁面:https://liming-ai.github.io/AlignDet.

1. 背景介紹

近年來,大規模預訓練後微調優化方法在計算機視覺中取得了重大進展。一系列預訓練算法被設計出來,以學習特定領域的或任務感覺的概念,以提升下遊性能。就目标檢測而言,目前方法通常利用ImageNet來預訓練骨幹網絡,采用面向分類的監督。然而,與面向檢測的微調過程相比,這種預訓練方法存在三個差異,如圖1所示。

資料:大多數預訓練方法是在單個以物體為中心的資料集上進行的,如ImageNet。但是,檢測資料集,例如COCO,通常由不同尺度和位置的多個物體組成。資料特征和領域上的差異可能導緻預訓練偏離下遊任務。

模型:由于檢測器的多樣性和複雜性,目前預訓練算法主要關注模型内的部分子產品(例如骨幹網絡)。檢測器中的某些關鍵元件(例如RPN和回歸頭)仍然是随機初始化的。

任務:現有預訓練方法僅将分類任務視為替代任務,未能捕獲包括建議生成、目标配置設定和框回歸在内的與物體相關的位置上下文。

這些差異可能導緻受限的結果、較差的泛化能力和較慢的收斂速度。

2. 相關知識補充

目标檢測。 目前的目标檢測算法可以根據不同的預測流程分為基于錨點、基于點和基于查詢的方法。基于錨點的方法在每個像素上生成多個具有預定義大小和尺度的錨點。它們通常通過交并比将訓練樣本劃分為正樣本和負樣本。基于點的方法旨在找到與每個對象相對應的參考點,這可以是每個執行個體的中心點,預定義或自學習的關鍵點 。與基于錨點和基于點的方法中使用預定義的先驗知識不同,基于查詢的方法通過一組可學習的查詢來表示不同的對象。

自監督預訓練。 自監督學習充分利用了大量無标注資料來學習結構化的資料特征,預訓練的權重被轉移到下遊任務中以確定良好的初始化。已經為無監督預訓練提出了許多替代任務,例如特征聚類 ,着色,上下文預測,旋轉預測和圖像填充。一方面,對比學習通過最大化來自同一執行個體的不同視圖的相似度來捕獲良好的表征 ,在多個下遊任務中取得了有競争力的性能。另一方面,Mask Image Modeling (MIM)最近在自監督學習中引起了越來越多的關注。MIM不需要特定的資料增強,并且對下遊任務具有更強大的泛化能力。

目标檢測的自監督預訓練。 盡管無監督預訓練在目标檢測中顯示出了有競争力的結果,但直接将圖像級預訓練知識轉移到密集級下遊任務存在一系列不一緻之處。為減小預訓練和微調之間的差距,一些方法通過探索不同視圖之間的局部特征相似性來提出密集級對比學習。一些研究人員發現僅預訓練骨幹網絡是不夠的,他們嘗試預訓練其他常見子產品,如FPN 。然而,這些方法需要從頭開始進行大量的預訓練,檢測器中的其他關鍵子產品(如RetinaNet 中的回歸頭)仍然是随機初始化的。另一方面,UP-DETR和DETReg 通過引入區域比對和特征重構替代任務來預訓練整個DETR樣式檢測器。盡管這些方法可以對整個模型進行充分的預訓練,但DETR定向的替代任務無法直接應用于其他檢測方法。相比之下,AlignDet實作了各種檢測器的高效充分的自監督預訓練。

3. 方法詳解

最近的工作通過建構無監督預訓練替代任務來擴充“預訓練和微調”方法,與僅使用監督預訓練的方法相比,這些方法取得了更高的性能。然而,與檢測過程相比,目前預訓練方法在資料、模型和任務上存在不一緻之處,如圖1所示。盡管可以通過大規模标注資料集的訓練來緩解這些不一緻,但它需要巨大的計算資源和手工标注成本。這些問題和局限激發我們提出AlignDet,一個通用的自監督架構,用于減小預訓練和微調階段中的差異。

ICCV2023|AlignDet:在各種檢測器的所有子產品實作無監督預訓練

圖2 AlignDet的預訓練流程圖。監督和自監督預訓練都可以用于圖像域階段,以捕捉整體視覺概念。對于框域預訓練,首先采用選擇性搜尋生成無監督建議作為僞标簽,然後對每個建議進行擴充,建構兩個具有不同尺度和變換的視圖。每個預測框用于建構對比學習和協調相關損失,以适應檢測任務。整個預訓練流程如圖2所示。在以下小節中,我們分别在第3.1節和第3.2節中介紹圖像域預訓練和框域預訓練。我們提供了僞代碼,以便更直覺地了解AlignDet流程,以及與其他方法在技術細節上的比較見補充材料。

3.1 圖像域預訓練

圖像域預訓練優化骨幹網絡,為後續的框域預訓練提取高層語義特征,如圖2左側的步驟1所示。一方面,給定圖像x,骨幹網絡可以在完全監督的設定下與分類器和分類類别進行預訓練。另一方面,最近出現的無監督學習算法有助于通過大量無标注資料捕獲更普适的表征。以SimSiam 為例,從輸入圖像中構造兩個視圖和,并采用不同的資料增強。骨幹網絡可以通過最大化不同視圖的相似性來學習普适的表征,并且利用預測器和停止梯度用來防止模式崩潰。

圖像域預訓練通常在大規模的圖像分類資料集(如ImageNet)上進行,其中每個樣本主要包含一個或少數幾個主要物體位于圖像中心。這裡存在一個差距,因為在預訓練過程無法通路包含不同尺度和位置的多個物體目标資料集。此外,檢測頭仍然是随機初始化的,回歸工作在此圖像域預訓練中也未明确學習到。為此,我們設計框域預訓練以減小這些差異。

3.2 框域預訓練

ICCV2023|AlignDet:在各種檢測器的所有子產品實作無監督預訓練
ICCV2023|AlignDet:在各種檢測器的所有子產品實作無監督預訓練

4. 結論

本文中,我們指出預訓練和微調階段在目标檢測中存在資料、模型和任務的差異,并提出了AlignDet來解決這些問題。AlignDet學習分類和回歸知識,實作高效針對所有子產品的預訓練。值得注意的是,AlignDet是第一個實作各種檢測器完全無監督預訓練的架構。我們廣泛的實驗表明,AlignDet可以在各種設定下顯著提升檢測性能,包括不同的檢測器、骨幹網絡、資料設定和微調計劃。我們相信我們的工作為目标檢測中的預訓練問題提供了有價值的洞見,并開辟了新的研究方向。

繼續閱讀