天天看點

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

Few-shot object detection的開山之作之一 ~~

屬于Metric-based Methods

特征學習器使用來自具有足夠樣本的基本類的訓練資料來 提取 可推廣以檢測新對象類的meta features。The reweighting module将新類别中的一些support examples轉換為全局向量,該全局向量indicates meta features對于檢測相應物體的重要性或相關性。這兩個子產品與detection prediction 一起,基于an episodic few-shot learning scheme和一個精心設計的損失函數進行端到端的訓練。通過大量的實驗,我們證明了我們的模型在多個資料集和設定上,在少樣本目标檢測方面比之前建立良好的基線有很大的優勢。

引入

最近,Meta Learning為類似的問題提供了很有希望的解決方案,即少樣本分類。 然而,由于目标檢測不僅涉及到類别預測,而且涉及到目标的定位,是以現有的少樣本分類方法不能直接應用于少樣本檢測問題。 以比對網絡(Matching networks)和原型網絡(Prototypical networks)為例,如何建構用于比對和定位的對象原型尚不清楚,因為圖像内可能存在無關類的分散注意力的對象或根本沒有目标對象。(because there may be distracting objects of irrelevant classes within the image or no targeted objects at all.)

我們提出了一種新的檢測模型,通過充分利用一些基類的檢測訓練資料,并根據一些支援執行個體快速調整檢測預測網絡來預測新的類,進而提供了few-shot learning能力。 該模型首先從基類中學習元特征(這些元特征可推廣到不同對象類的檢測)。 然後利用幾個支援執行個體來識别元特征(這些元特征對于檢測新的類是重要的和有鑒别性的,并相應地适應于将檢測知識從基類轉移到新的類。)

是以,我們提出的模型引入了一個新的檢測架構,包括兩個子產品,即元特征學習器和輕量級features reweighting 子產品。 給定一個查詢圖像和幾個新類的支援圖像,特征學習器從查詢圖像中提取元特征。 重新權重子產品學習捕獲支援圖像的全局特征,并将其嵌入到重新權重系數中,以調制查詢圖像元特征。 是以,查詢元特征有效地接收支援資訊,并适合于新對象檢測。 然後,将适應的元特征輸入檢測預測子產品,以預測查詢中新對象的類和邊界盒(圖2)。 特别地,如果有N個新的類要檢測,重權子產品将接受N個支援執行個體類,并将它們轉換成N個重權向量,每個重權向量負責從相應的類中檢測新的對象。 通過這種特定于類的重權向量,可以識别出新類的一些重要的、具有鑒别性的元特征,進而有助于檢測決策,整個檢測架構可以有效地學習檢測新類。

元特征學習器和重權重子產品與檢測預測子產品一起進行端到端的訓練。 為了保證few-shot的泛化能力,整個few-shot檢測模型采用兩階段學習方案進行訓練:首先從基類中學習元特征和良好的重權值子產品; 然後微調檢測模型以适應新類。 為了解決檢測學習中的困難(例如,存在分散注意力的物體),它引入了精心設計的損失函數。

我們提出的few-shot檢測器在多個資料集和各種設定下都優于競争基線方法。 此外,它還顯示了從一個資料集到另一個不同的資料集的良好可移植性。 我們的貢獻可概括如下:

We design a novel few-shot detection model that 1)learns generalizable meta features; and 2) automatically reweights the features for novel class detection by producing class-specific activating coefficients from a few support samples.

Related work

Few-shot learning

An increasingly popular solution for few-shot learning is meta-learning, which can further be divided into three

categories:

a) Metric learning based. In particular, Matching Networks [39] learn the task of finding the most similar class for the target image among a small set of labeled images. Prototypical Networks [35] extend Matching Networks by producing a linear classifier instead of weighted nearest neighbor for each class. Relation Networks [37] learn a distance metric to compare the target image to a few labeled images.

b) Optimization for fast adaptation. Ravi and Larochelle [28] propose an LSTM meta-learner that is trained to quickly converge a learner classifier in new few-shot tasks. Model-Agnostic Meta-Learning(MAML) [12] optimizes a task-agnostic network so that a few gradient updates on its parameters would lead to good performance on new few-shot tasks.

c) Parameter prediction. Learnet [2] dynamically learns the parameters of factorized weight layers based on a single example of each class to realize one-shot learning.

上面的方法隻是為了識别新的圖像而開發的,還有一些其他的工作試圖學習一個模型can 對基本圖像和新圖像進行分類

Object detection with limited labels

弱監督方法考慮了訓練對象檢測器時隻使用圖像級标記,而不使用bounding box标記(擷取代價更高)的問題。 Few example object detection 假設每類隻有幾個标記的bounding box,但依賴于大量的未标記圖像來生成可信的僞标記框用于訓練。 zero-shot object detection旨在檢測以前看不到的類别,是以通常需要類之間的關系等外部資訊。 與這些設定不同的是,我們的few-shot檢測器為每個新的類使用非常少的bounding box标記(1-10),而不需要未标記的圖像或外部知識。

方法

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

Feature Reweighting for Detection

我們提出的few-shot檢測模型在一個階段檢測架構中引入了元特征學習器D和重權重子產品M。 在本工作中,我們采用了無提案檢測架構YOLOV2。 它 通過檢測預測子產品P 将每個錨點的特征直接回歸得到相關輸出(包括分類得分和框坐标)。采用YOLOV2的主幹(即DarkNet-19)實作元特征提取器D,并遵循與YOLOV2相同的錨點設定。 對于重權子產品M,我們精心設計成一個輕量級的CNN,既提高了效率,又簡化了學習。

The meta feature learner D D D 學習如何提取輸入查詢圖像的元特征以檢測新類。

Reweighting module M M M 以支援圖像為輸入,學習将支援資訊嵌入到 reweighting vectors 中,并相應地調整查詢圖像的每個元特征的貢獻,以用于後續預測子產品 P P P。Reweighting module 将激發一些對檢測新類有用的元特征,進而輔助檢測預測。

I I I: an input query image

corresponding meta features F = D ( I ) , F ∈ R w × h × m F=D(I), F ∈ R^{w×h×m} F=D(I),F∈Rw×h×m, The produced meta feature has m feature maps.

I i , S i I_i, S_i Ii​,Si​: the support images and their associated bounding box annotation for class i i i

a class-specific representation: w i = M ( I i , S i ) ∈ R m w_i =M(I_i,S_i)∈ R^m wi​=M(Ii​,Si​)∈Rm: w i w_i wi​ 負責reweighting元特征,并突出更重要和相關的特征,以從類 i i i 中檢測目标對象。

更具體地說,在獲得class-specific 的reweighting系數 w i w_i wi​之後,我們的模型應用它來獲得the class-specific feature F i F_i Fi​ for

novel class i i i,方法是:

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

喂入預測子產品 P P P 得到the objectness score o o o, bounding box location offsets ( x , y , h , w ) (x, y, h, w) (x,y,h,w), and classification score c i c_i ci​ for each of a set of predefined anchors

Learning Scheme

從基類中學習一個好的元特征學習器 D D D和重新權重子產品 M M M以使它們能夠産生可推廣的元特征和權重系數是不簡單的。 為了保證模型的泛化性能,我們提出了一種新的兩階段學習方案,不同于傳統的檢測模型訓練方案。

第一階段是base training。 在這一階段,盡管每個基類都有豐富的标簽,但我們仍然聯合訓練feature learner D D D、預測 P P P和重權值子產品 M M M。 這是為了讓它們以期望的方式進行協調:模型需要學習 通過參考一個好的reweighting vector來檢測感興趣的對象。 第二階段是few-shot fine-tuning。 在這個階段,我們在基類和新類上訓練模型。 由于新類隻有k個可用,為了平衡基類和新類的樣本,我們也為每個基類包含k個 bounding boxs。 訓練過程與第一階段相同,隻是模型收斂所需的疊代次數明顯減少。

在兩個訓練階段中,重新權重系數 depend on 從可用資料中随機采樣的輸入對(支援圖像、bounding box)。 經過少量的微調,我們希望得到一個不需要任何支援輸入就可以直接執行檢測的檢測模型?。 這是通過将目标類的重新權重向量設定為模型預測的平均向量來實作的,然後将K鏡頭樣本作為輸入。 在此之後,在推理過程中可以完全移除重新權重子產品。 是以,我們的模型在原始探測器上增加了可忽略不計的額外模型參數。

Detection loss function: 為了訓練少樣本檢測模型,我們需要仔細選擇損失函數,特别是對于類預測分支,因為樣本數很少。 假設預測 is made classwisely,使用二進制交叉熵損失似乎是很自然的,如果對象是目标類,則回歸1,否則回歸0。 然而,我們發現使用這個損失函數導緻 模型容易輸出備援的檢測結果(例如,将火車檢測為公共汽車和汽車)。 這是由于對于一個特定的感興趣的區域,N個類别中隻有一個是 true positive 的。 然而,二進制損失 力求 産生平衡的正負預測。 非最大抑制不能幫助消除這些假陽性,因為它隻對每個類内的預測進行操作。

為了解決這個問題,我們提出的模型采用了一個Softmax層來校準分類分數,自适應降低錯誤類别的檢測分數。

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

其中1(·,i)是目前錨方塊是否真的屬于I類的訓示函數。 引入Softmax後,針對特定錨點的分類得分總和等于1,不太可能的類預測将被抑制。

Reweighting module input: 重新權重子產品的輸入應該是感興趣的對象。 然而,在目标檢測任務中,一幅圖像可能包含來自不同類别的多個目标。 為了讓重新權重子產品知道目标類是什麼,除了三個RGB通道之外,我們還包括一個附加的“掩碼”通道(MI),它隻有二進制值:在感興趣對象的邊界框内的位置上,值為1,否則為0(參見圖2的左下角)。 如果圖像上存在多個目标對象,則隻使用一個對象。 這個附加的掩碼通道使重權重子產品知道它應該使用圖像的哪一部分資訊,以及哪一部分應該被認為是“背景”。 将掩碼和圖像相結合作為輸入,不僅提供了感興趣對象的類别資訊,而且還提供了對檢測有用的位置資訊(由掩碼訓示)。 在實驗中,我們還研究了其他輸入形式。

實驗

對比方法:第一種方法是在基類和新類的圖像上對檢測器進行訓練。 這樣,它就可以從基類中學習到适用于檢測新類的良好特征。 我們把這個基線稱為

YOLO-joint

。 我們用與我們相同的總疊代來訓練這個基線模型。 另外兩個基于Yolo的基線也使用了我們的兩個訓練階段。 特别是,他們用與我們相同的基地訓練階段訓練原始Yolov2模型; 對于少量的微調階段,一個用與我們相同的疊代來微調模型,稱為

YOLO-ft

; 一個訓練模型至完全收斂,稱為

YOLO-ft-full

最後兩個基線來自最近的一種少鏡頭檢測方法,即低鏡頭轉移檢測器(LSTD)[4]。 LSTD依靠背景抑制(BD)和轉移知識(TK)來獲得新類上的少量檢測模型。 為了公平比較,我們在YOLOV2的基礎上重新實作了BD和TK,對其進行了相同的疊代訓練,得到了

LSTD(YOLO)

; 并訓練它收斂以獲得最後一個基線

LSTD(YOLO)-full

AP

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗
【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

speed

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

盡管我們的檢測器是為少樣本場景設計的,但它也具有強大的表示能力,并提供良好的元特征,以達到與原始Yolov2檢測器在大量樣本上訓練的性能相當的性能。 這為解決少樣本目标檢測問題奠定了基礎。

【論文閱讀】 Few-shot object detection via Feature Reweighting引入Related work方法實驗

繼續閱讀