天天看點

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

作者:極市平台

作者丨Garfield

編輯丨極市平台

本文首發于極市平台,轉載須經授權并注明來源

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

論文連結:https://arxiv.org/abs/2307.11077

項目位址:https://github.com/liming-ai/AlignDet

1. 引言

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

這篇論文主要研究目标檢測領域的自監督預訓練方法。作者首先指出,目前主流的預訓練-微調架構在預訓練和微調階段存在資料、模型和任務上的不一緻。具體來說

  1. 資料不一緻預訓練通常在分類資料集上進行,如ImageNet,而微調資料集像COCO包含多個目标物體。資料特征和域的差異會導緻預訓練偏離下遊任務。
  2. 模型不一緻目前預訓練方法主要聚焦在模型的部分子產品,如骨幹網絡,而檢測器的其他關鍵子產品如RPN和回歸頭沒有進行預訓練。
  3. 任務不一緻現有預訓練隻将分類作為預訓練任務,沒有學習到目标相關的位置上下文資訊,如proposal生成、目标配置設定和框回歸。

這些不一緻性可能導緻目标檢測性能的局限、泛化能力差和收斂速度慢的問題。為此,作者提出AlignDet架構,可以調适到不同檢測器中,以彌合預訓練和微調中的差異。

AlignDet将預訓練過程解耦為Image-domain預訓練和Box-domain預訓練兩個階段。Image-domain預訓練優化檢測網絡的骨幹提取高層語義特征,Box-domain預訓練則學習執行個體級語義和任務感覺的概念,來初始化骨幹以外的子產品。具體來說

  1. 在Image-domain預訓練中,可以用分類器對骨幹網絡進行監督預訓練,也可以用最近出現的自監督方法進行無監督預訓練。
  2. 在Box-domain預訓練中,使用選擇性搜尋生成僞标簽,建構兩視圖進行對比學習和坐标回歸損失計算,以适應檢測導向的任務。同時固定骨幹網絡避免過拟合噪聲标簽。

那麼對于資料、模型和任務存在的不一緻性,AlignDet都是怎麼解決的呢?首先對于資料不一緻性方面,AlignDet通過Box-domain預訓練直接在目标檢測資料集上進行,而不是僅在分類資料集上預訓練。這使得預訓練過程可以适應目标檢測的資料分布, bridge the gap between pre-training and fine-tuning datasets。至于模型不一緻性方面,AlignDet可以預訓練檢測器中的所有子產品,而不僅僅是骨幹網絡。這確定了檢測頭等關鍵子產品可以得到良好的初始化,有利于遷移到下遊任務。從任務不一緻性的方面來看,AlignDet建構了檢測導向的預訓練任務,既包含分類也包含回歸。這使得預訓練不僅學習語義資訊,還學習物體的坐标資訊,更貼近目标檢測的實際任務。進一步來說,AlignDet通過Image-domain和Box-domain解耦設計,可以充分利用現有預訓練的骨幹網絡,提升預訓練效率。同時,它也是第一個支援各種檢測器完全自監督預訓練的架構。

從實驗結果來看,AlignDet可以顯著提升各種檢測器在不同訓練政策和資料量下的性能。例如,在COCO上使用12個epoch預訓練,FCOS精度提升5.3 mAP,Mask R-CNN提升3.3 mAP。這充分驗證了AlignDet可以有效解決目标檢測預訓練與微調中的差異,并取得顯著的性能改進。

2. 方法

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

這篇論文提出了AlignDet架構,以解決目标檢測中預訓練和微調過程中的資料、模型和任務的不一緻性問題。該架構包含Image-domain預訓練提取語義特征和Box-domain預訓練學習執行個體級語義的兩個階段。Box-domain預訓練利用選擇性搜尋生成僞标簽,并通過對比學習和坐标回歸任務進行檢測導向的預訓練。

2.1 Image-domain Pre-training

在AlignDet架構中,Image-domain預訓練主要針對骨幹網絡,以提取語義特征。該過程可以使用監督或自監督方式進行。

以自監督預訓練為例,給定輸入圖像x,可以通過資料增強建構兩個視圖x1和x2。然後骨幹網絡backbone可以學習到視角不變的表示:

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

具體而言,可以使用對比學習方法SimSiam,它通過預測器predictor和停 gradient阻斷梯度反向傳播,最大化不同視圖表示的相似性,獲得泛化能力更強的特征:

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

這裡的predictor通常是一個小的MLP,stopgrad表示停止梯度回傳。

通過在大規模圖像分類資料集上預訓練,骨幹網絡可以學到語義特征,為後續的Box-domain預訓練提供輸入。這種監督或自監督的Image-domain預訓練可以有效提取視角不變的特征表示,是AlignDet架構的第一步。

2.2 Box-domain Pre-training

AlignDet架構中的Box-domain預訓練主要針對檢測器中除骨幹網絡之外的子產品,以學習執行個體級語義和任務感覺的先驗知識。Box-domain預訓練包含以下幾個關鍵步驟:

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構
ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

3. 實驗

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

從Table 2的實驗結果可以看出,AlignDet與隻進行Image-domain預訓練的方法相比,在不同的檢測器、訓練政策和資料量設定下都獲得了顯著的性能提升。在資料量方面,随着訓練資料的減少,AlignDet的提升越明顯。例如在隻有1%資料的情況下,AlignDet分别為FCOS、RetinaNet、Faster R-CNN和Mask R-CNN帶來了1.4、1.8、2.5和3.6 mAP的提升。這說明AlignDet學到的知識可以緩解資料不足的問題。

在訓練政策方面,在訓練輪數較少(12k iters)的情況下,AlignDet同樣帶來顯著提升,例如Mask R-CNN在12k iters下提升3.2 mAP。這證明AlignDet加速了模型收斂速度。

在檢測器方面,AlignDet對一階段模型FCOS和RetinaNet、兩階段模型Faster R-CNN、query基礎模型DETR都取得明顯的效果提升。這展示了AlignDet的普适性。即使在充足資料(100% COCO)和充分訓練疊代(90k iters)下,AlignDet仍可帶來約1.0 mAP的提升。這進一步證明了AlignDet的有效性。與其他方法相比,AlignDet對各類檢測器都獲得顯著且一緻的效果改進,尤其是在低資料量或訓練疊代較少的困難設定下,而其他方法的提升則相對較小且局限。這充分證明AlignDet可以有效地解決預訓練和微調過程中的差異,為各類檢測方法提供強有力的預訓練方案。

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

從Table 4的遷移學習結果可以看出,AlignDet在COCO資料集上進行預訓練後,可以有效地遷移至Pascal VOC資料集并提升下遊檢測性能。具體來看:AlignDet在所有檢測器上都獲得了顯著的AP提升,特别是高門檻值metric AP75的提升非常明顯。例如Faster R-CNN的AP75提升了6.5。對于RetinaNet和FCOS等一階段檢測器而言,AlignDet預訓練主要增強了分類能力,即AP50名額獲得明顯提升。這與一階段檢測器更依賴分類的特點一緻。對于兩階段檢測器Faster R-CNN,AlignDet預訓練主要提升了回歸準确度,即AP75名額明顯增強。這與兩階段檢測器同時優化分類和回歸的流程吻合。而DETR這樣的query基礎檢測器,AlignDet在分類和回歸兩個名額上都取得顯著提升。

也就是說,AlignDet學到的知識能有效遷移到下遊檢測任務和資料集上,提升不同檢測器的分類和回歸能力。這進一步證明了AlignDet學習到的語義和坐标資訊對目标檢測任務具有普适的優化作用。這表明AlignDet不僅适用于COCO等多對象檢測,也适用于VOC等較簡單的少類檢測。

4. 讨論

這篇論文的一大優點在于作者針對目标檢測預訓練與微調之間的資料、模型和任務不一緻性難題,提出了一套統一且全面的AlignDet架構進行檢測導向的預訓練。該架構通過分别解決資料、模型和任務上的差異,成功地在有效性、效率和遷移能力上取得明顯改進和突破。此外,該方法的普适性也很強,可以廣泛應用于各類檢測器和骨幹網絡。這可以說是一個具有重要意義的裡程碑性工作。

但是,這篇論文也存在一些可以改進的地方。比如Box-domain預訓練目前需要依賴選擇性搜尋生成僞标簽,這可能會帶來一定局限性,我們可以探索端到端的無監督框檢測方法來獲得proposal。此外,目前方法主要在COCO資料集驗證,可以考慮在更多檢測資料集和場景下進行評估。

展望未來,這項工作為目标檢測的預訓練研究打開了新的大門。我們可以基于該架構,繼續探索無監督、弱監督proposal生成和Box-domain預訓練技術,以進一步降低人工标注和計算成本。另一方面,如何将該架構擴充到其他密集預測任務也是一個有趣的方向。總之,這項工作為更好地解決預訓練與下遊任務的不一緻提供了重要啟發,是目标檢測和計算機視覺領域一個高品質的工作。

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

從表1可以看出,AlignDet與其他目标檢測預訓練方法的主要差別在于:

  1. 資料方面,AlignDet不僅适用于單對象的資料集,也能夠在多對象的資料集上進行預訓練,更貼近下遊任務。
  2. 模型方面,AlignDet可以預訓練檢測模型中的所有子產品,而不僅是骨幹網絡,確定各子產品初始化良好。
  3. 任務方面,AlignDet同時引入了分類和回歸兩種預訓練任務,學習語義和坐标資訊,更符合目标檢測的需求。
  4. 效果方面,AlignDet對各類檢測器都能取得顯著提升,展示了更強的普适性。
  5. 效率方面,AlignDet隻需要12個epoch在COCO上預訓練即可取得穩定收益,訓練時間上也更為高效。
  6. 創新方面,AlignDet支援各類檢測器的完全自監督預訓練,是第一個實作這一目标的方法。

綜上所述,AlignDet相比其他方法更充分地解決了預訓練和微調過程中的資料、模型和任務差異,使檢測器獲得了顯著和一緻的性能改進。這說明了AlignDet的有效性、普适性以及創新性。

ICCV23|AlignDet:支援各類檢測器完全自監督預訓練的架構

5. 結論

總結而言,這篇題為“AlignDet: Aligning Pre-training and Fine-tuning for Object Detection”的論文研究了目标檢測中預訓練和微調過程中的資料、模型和任務不一緻性問題。論文指出現有預訓練範式存在上述三方面差異,導緻檢測性能受限、泛化能力差且收斂速度慢。為解決這一問題,論文提出了AlignDet架構,可以适配各種檢測器以彌合預訓練和微調的差異。該架構分為Image-domain預訓練提取語義特征和Box-domain預訓練學習執行個體級語義與任務感覺先驗。實驗結果展示,AlignDet可以顯著提升各類檢測器在不同資料量、訓練政策及遷移學習下的性能。例如在COCO上12輪預訓練,FCOS精度提升5.3 mAP,Mask R-CNN提升3.3 mAP。可以說AlignDet是第一個支援各類檢測器完全自監督預訓練的架構,對推進目标檢測預訓練研究具有重要意義。總之,本論文不僅指出了目标檢測中存在的預訓練與微調不一緻性問題,也設計了AlignDet架構進行有效的檢測導向預訓練,為該領域的研究做出了重要貢獻。

繼續閱讀