
計算機視覺研究院專欄
作者:Edison_G
有研究者着重于半監督目标檢測,以提高基于候選的目标檢測器的性能。通過對标記資料和未标記資料進行訓練。然而,由于GT标簽的不可用性,在未标記的資料上訓練目标檢測器并不是很簡單的。
一、簡要
為了解決這個問題,研究者提出了一種proposal learning方法,以從标記和未知的資料中學習候選特征和預測資訊。該方法由一個自監督的專業學習子產品和一個基于一緻性的候選學習子產品組成。在自監督的候選學習子產品中,分别提出了一個候選位置損失和一個contrastive loss來學習上下文感覺和噪聲魯棒的候選特征。
在基于一緻性的候選學習子產品中,将一緻性損失應用于候選的邊界框分類和回歸預測,以學習噪聲魯棒的候選特征和預測資訊。新方法具有以下好處:
1)争取在候選學習過程中提供更多的上下文資訊;
2)有噪聲的候選特征加強一緻性,允許噪聲魯棒的目标保護;
3)建構一個通用的高性能半監督目标檢測架構,該架構可以适應基于不同主幹架構的基于候選的目标檢測器。
實驗在COCO資料集上進行,包括所有可用的标記和未标記資料。結果表明,新提出的方法始終提高了全監督基線的性能。特别是,在與資料蒸餾相結合後,新方法分别與全監督基線和資料蒸餾基線相比,平均提高了約2.0%和0.9%。
二、背景及動機
研究者主要着重于基于候選的目标檢測器的SSOD(Semi-Supervised Object Detection,Two-stages目标探測器,由于其有高性能)。Proposal-based的目标檢測器通過如下擷取目标檢測:1)首先生成可能包含對象的候選區域,2)然後生成候選特征和預測(即邊界框分類和回歸預測)來檢測目标。特别地,研究者的目标是通過從标記和未标記資料中學習候選特征和偏好來改進第二階段。對于标記資料,使用GT标簽可以直接獲得訓練監督;但對于未标記的資料,由于GT标簽的不可用性,不能直接學習候選特征和預測。為了解決這個問題,除了标準的标記資料的全監督學習,如下圖所示(a)所示。
研究者就提出了一種名為候選學習的方法,它支援自監督候選學習子產品和基于一緻性的候選學習子產品,從标記和非資料中學習候選特征和預測,見下圖。
三、新架構詳細介紹
對于每個标簽資料(I,g)∈DI,根據标準的全監督學習直接去訓練目标檢測器,損失如下定義:
其中,第一個和第二個表示RPN和R-CNN損失。更多細節損失函數可以查閱[Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149]文章。
研究者應用了所定義的标準的全監督損失,自監督的候選學習損失L以及基于一緻性的候選學習損失到未标記的資料。目标檢測器在這些資料上訓練,及反向傳播在如下公式中優化:
是以,整體的損失公式如下:
Self-Supervised Proposal Learning
之前的的工作表明,目标檢測器可以從上下文中獲益。研究者提出的的自監督候選學習子產品分别使用候選位置損失和對比損失來學習上下文感覺和噪聲魯棒的候選特征。為了計算候選位置損失,受[Carl Doersch, Abhinav Gupta, and Alexei A Efros. Unsupervised visual representation learning by context prediction. In
Proceedings of the IEEE international conference on computer vision, pages 1422–1430]方法的啟發以候選位置預測為借口。更具體地說,通過全連接配接層中的兩個參數,計算位置預測L,其中兩個全連接配接層的輸出數分别為1024和4。然後使用ℓ2距離計算候選位置損失,參見如下公式,其中P˜n=(xn/W、yn/H、wn/W、hn/H)是Pn的标準化版本,W,H分别表示圖像的寬和高。
為了計算對比損失,以執行個體判别作為 pretext task,,遵循[Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross
Girshick. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722]。更具體地說,首先使用帶有參數的全連接配接層和ℓ2歸一化層來投影F到嵌入式候選特征F(減少對F的依賴性),其中全連接配接層的輸出數為128。然後将對比損失寫為如下等式,其中τ是一個溫度超參數。
整體損失如下:
Consistency-Based Proposal Learning
為了進一步訓練噪聲魯棒目标檢測器,研究者應用一緻性損失來確定噪聲候選預測與原始候選預測之間的一緻性。更準确地說,将一緻性損失應用于邊界框分類和回歸預測。對于邊界框分類預測的一緻性損失,研究者使用KL散度作為損失來強制執行來自有噪聲候選的類預測,并使其原始候選是一緻的。
與隻包含分類結果的圖像分類不同,目标檢測可以預測目标的位置。為了進一步保證候選預測的一緻性,計算了如下等式中的一緻性損失,強制執行對象位置預測從有噪聲的候選和他們的原始候選是一緻的。這裡使用标準的邊界框回歸損失,即平滑的ℓ1損失。隻選擇了最簡單的噪聲候選特征來計算這個損失的訓練穩定性。
然後,可以了解到更有噪聲-魯棒的候選特征和預測:
四、新架構實驗
五、簡單總結
在本研究中,研究者着重于基于候選的目标探測器的半監督目标檢測。為此,提出了一種候選學習方法,它由自監督候選學習子產品和基于一緻性的候選學習子產品組成,從标記和未标記資料中學習候選特征和預測。自監督候選學習子產品分别通過候選位置損失和對比損失來學習上下文感覺和噪聲噪聲候選特征。基于一緻性的候選學習子產品通過對邊界框分類和回歸預測的一緻性損失來學習噪聲魯棒的候選特征和回歸預測。實驗結果表明,新提出方法始終優于全監督的基線。
同樣值得一提的是,可以通過結合新方法和資料蒸餾來進一步提高檢測性能。
在未來,研究者可将探索更多的自監督學習和半監督學習方法的半監督目标檢測,并探索如何将新方法應用于半監督執行個體分割。
© THE END