天天看點

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

從幾個例子中檢測稀有物體是一個新出現的問題。 先前的工作表明Meta-Learning是一種有希望的方法。 但是,微調技術很少引起注意。 我們發現,在稀有類上隻對現有探測器的最後一層進行微調對于 Few-Shot Object Detection至關重要。 這樣一種簡單的方法在目前基準上比元學習方法高出大約2~20個百分點,有時甚至比以前的方法提高了一倍的準确率。 然而,少數樣本中的高方差(high variance)往往導緻現有基準的不可靠性。 我們通過對多組訓練樣本的抽樣來修正評估協定,以獲得穩定的比較,并基于三個資料集:Pascal VOC、COCO和LVIS建立新的基準。 同樣,我們的微調方法在修訂後的基準上效果也更好。

引入

The ability to generalize from only a few examples (so called few-shot learning) has become a key area of interest in the machine learning community.

But, current evaluation protocols suffer from statistical unreliability, and the accuracy of base-line methods, especially simple fine-tuning, on few-object detection are not consistent in the literature.

在基于微調的模型設計和訓練中,我們重點研究了目标檢測器的訓練排程和執行個體級特征歸一化。

現有評估協定的幾個問題阻礙了相關模型的比較:精度測量有很高的方差,使結果不可靠。 另外,以往的評價隻報告了新類的檢測精度,而沒有對基類進行評價。 為了解決這些問題,我們在三個資料集上建構新的基準:Pascal VOC、COCO和LVIS(Gupta et al.,2019)。 我們對不同組的few-shot training examples進行多次實驗,以獲得穩定的精度估計,并定量分析不同評估名額的方差。 新的評估報告了基類和新類的平均精度(AP),以及所有類的平均精度,referred to as the generalized few-shot learning setting in the few-shot classification literature.

我們的微調方法在基準上建立了新的技術狀态。 在具有挑戰性的LVIS資料集上,我們的兩階段訓練方案将稀有類(<10幅圖像)的平均檢測精度提高了大約4點,将常見類(10~100幅圖像)的平均檢測精度提高了大約2點,而對頻繁類(>100幅圖像)的檢測精度損失可以忽略不計。

Related Work

Meta-learning

元學習的目标是擷取任務級的元知識(task-level meta knowledge),幫助模型快速适應新的任務和環境with very few labeled examples.

Some learn to 微調并旨在獲得一個良好的參數初始化,該參數初始化可以适應新任務with a few scholastic gradient updates。 關于元學習的另一個流行研究路線是在适應新任務時使用參數生成。 Gidaris&Komodakis(2018)提出了一種基于注意力的權重生成器來生成新類的分類器權重。 王等人(2019a)通過為特征層生成參數來構造task-aware feature embeddings。 這些方法已被用于用于few-shot 圖像分類,not目标檢測等更具挑戰性的任務。

Metric-learning

Intuitively, if the model can construct distance metrics to estimate the similarity between two input images, it may generalize to novel categories with few labeled instances.

最近,一些(Chen et al.,2019;Gidaris&Komodakis,2018;Qi et al.,2018)采用了基于餘弦相似度的分類器來減少few-shot 分類任務的内部方差,與許多基于Meta-Learning的方法相比,這導緻了更好的性能。 我們的方法還采用了一個餘弦相似分類器來對region proposals的類别進行分類。 然而,我們将重點放在執行個體級的距離測量上,而不是圖像級的距離測量。

Few-shot object detection

元學習: 文獻1(2019)和 Meta rcnn (2019)在元學習器的幫助下,将 feature reweighting 方案應用于單級對象檢測器(YOLO V2)和兩級對象檢測器(Faster R-CNN),該元學習器将支援圖像(即少量新/基類的标記圖像)以及bounding box annotations作為輸入。 王等人(2019b)提出了一個權重預測元模型,從少量樣本中學習category-specific的例子,同時從基類樣本中學習類别不可知(category-agnostic)的例子。

在所有這些工作中,基于微調的方法被認為是比基于元學習的方法性能更差的基線。 他們考慮聯合優化 (jointly finetuning:指基類和新類一起訓練),并微調整個模型(檢測器首先隻在基類上訓練,然後在一個既有基類又有新類的平衡集上微調)。 相比之下,我們發現隻對平衡子集上的目标檢測器的最後一層進行微調,并保持模型的其餘部分不變,可以顯著提高檢測精度,優于現有的所有基于元學習的方法。 這表明,從基類學習的特征表示可能能夠轉移到新的類,對box predictor的簡單調整可以提供強大的性能增益。

Algorithms for Few-Shot Object Detection

用于訓練的新集合是平衡的,即每個類具有相同數量的annotated objects(即,k-shot)

The few-shot object detector is evaluated on a test set of both the base classes and the novel classes, which is different from the N-way-K-shot setting commonly used in few-shot classification

Two-stage fine-tuning approach

two-stage fine-tuning approach (TFA):

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

The feature learning components, referred to as F F F, of a Faster R-CNN model include the backbone (e.g.,ResNet, VGG16), the region proposal network (RPN), as well as a two-layer fully-connected (FC) sub-network as a proposal-levelfeature extractor.

直覺地說,主幹特性和RPN特性都是類無關的(class-agnostic)。 是以,從基類學習的特性很可能轉移到新的類,而不需要進一步的參數更新。 該方法的關鍵部分是将the feature representation learning

and the box predictor learning分為兩個階段。

Base model training 在第一階段,我們隻在基類 C b C_b Cb​上訓練特征提取器和盒預測器,共同損失是,

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

Few-shot fine-tuning 在第二階段,我們建立一個小的平衡訓練集,每個類有k shots,包含基礎類和新類。 在保持整個特征提取器固定不變的情況下,我們對新類的box prediction網絡随機初始化權值,隻對分類和回歸網絡(即檢測模型的最後一層)進行微調。 我們在方程1中使用相同的損失函數和較小的學習速率。 在我們所有的實驗中,學習率比第一階段降低了20。

Cosine similarity for box classifier the weight matrix W W W

The output of the box classifier C C C is scaled similarity scores S S S of the input feature F ( x ) F(x) F(x) and the

weight vectors of different classes.

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

實驗結果表明,與基于FC的分類器相比,基于餘弦相似度的分類器采用執行個體級特征歸一化的方法可以減少類内方差,提高新類的檢測精度,而基類的檢測精度下降較小,特别是在訓練樣本數較少的情況下。

Meta-learning based approaches

在本節中,我們描述了現有的基于元學習的少鏡頭目标檢測網絡,包括FSRW(Kang et al.,2019)、Meta R-CNN(Yan et al.,2019)和MetaDet(Wang et al.,2019b),以與我們的方法進行比較。 圖2說明了這些網絡的結構。

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

在元學習方法中,除了采用單階段或兩階段的基本對象檢測模型外,還引入了元學習器meta-learner,通過feature re-weighting(如FSRW和Meta R-CNN)或class-specific 權重生成(如MetaDet)來擷取class-leval meta knowledge,并幫助模型推廣到新的類。 元學習器的輸入是一小組帶有目标對象邊界框注釋的支援圖像。

The base object detector和meta-learner通常使用情景訓練(episodic training)共同訓練。 Each episode由N個對象的支援集和一組查詢圖像組成。 在FSRW和Meta R-CNN中,支援圖像和标注對象的二進制掩碼被用作元學習器的輸入,元學習器生成類重權重向量來調制查詢圖像的特征表示。 如圖2所示

訓練過程還分為元訓練階段和元微調階段,元訓練階段隻在基類的資料上訓練模型,元微調階段中支援集包括新類的少數示例和基類的子集。

元學習方法和我們的方法都有兩個階段的訓練方案。 然而,我們發現,在元學習方法中使用的情節學習(episodic learning)可能會随着支援集中類的數量的增加而非常缺乏記憶效率。 我們的微調方法隻對網絡的最後幾層進行微調,這是一個正常的批訓練方案,which is much more memory efficient.

實驗

Implementation details. We use Faster R-CNN as our base detector and Resnet-101 with a Feature Pyramid Network as the backbone.

Existing few-shot object detection benchmark

我們将我們的方法與Meta-Learning方法如FSRW、Meta-RCNN和MetaDet以及基于微調的方法進行了比較。 jointly training, denoted by F R C N / Y O L O + j o i n t FRCN/YOLO+joint FRCN/YOLO+joint, where the base and novel class examples are jointly trained in one stage, and fine-tuning the entire model, denoted by F R C N / Y O L O + f t − f u l l FRCN/YOLO+ft-full FRCN/YOLO+ft−full, where both the feature extractor F F F and the box predictor ( C C C and R R R) are jointly fine-tuned until convergence in the second fine-tuning stage. FRCN is Faster R-CNN for short. Fine-tuning with less iterations, denoted by FRCN/YOLO+ft.

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

We also compare the cosine similarity based box classifier (TFA+w/cos) with a normal FC-based classifier (TFA +w/fc) and find that TFA +w/cos is better than TFA +w/fc on extremely low shots (e.g., 1-shot), but the two are roughly similar when there are more training shots, e.g., 10-shot.

Generalized few-shot object detection benchmark

我們發現現有基準存在幾個問題。 首先,以前的評估協定隻關注新類的性能。 這忽略了基類中潛在的性能下降,進而忽略了網絡的整體性能。 其次,由于訓練樣本較少,樣本方差較大。 這使得很難從與其他方法的比較中得出結論,因為性能差異可能不大。

我們報告基類的AP(BAP)和整體AP以及新類的AP(NAP)。 這使我們可以觀察基礎類和新類的性能趨勢,以及網絡的整體性能。

另外,我們在訓練鏡頭的不同随機樣本上訓練我們的模型進行多次運作,以獲得平均值和置信區間。 在圖3中,我們顯示了在Pascal VOC的第一次分裂時,在K=1,3,5,10的40次重複運作中的累積均值和95%置信區間。 盡管在第一個随機樣本上性能很高,但随着使用更多樣本,平均值顯著下降。 此外,前幾次運作的置信區間很大,尤其是在低鏡頭場景中。 當我們使用更多的重複運作時,平均值穩定,置信區間變小,這允許更好的比較。

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

Ablation study and visualization

Weight initialization 在少鏡頭微調前,我們探讨了兩種不同的初始化方法:(1)随機初始化和(2)微調a predictor on the novel set 并使用分類器的權值作為初始化。我們比較了兩種方法在K=1,3,10,Pascal VOC和COCO的分裂3上的結果,如表5所示。 在Pascal VOC上,簡單的随機初始化可以優于使用微調的新權重的初始化。 在COCO上,使用新的權值可以改善随機初始化的性能。 這可能是由于與Pascal VOC相比,COCO的複雜性和類的數量增加了。 我們對所有Pascal VOC實驗使用随機初始化,對所有COCO和LVIS實驗使用新穎初始化。

Scaling factor of cosine similarity

可視化

失敗情況包括将新對象錯誤地分類為類似的基本對象,例如,行2列1、2、3和4,錯誤地定位對象,例如,行2列5,以及丢失檢測,例如,行4列1和5。

【論文閱讀】Frustratingly Simple Few-Shot Object Detection引入Related WorkAlgorithms for Few-Shot Object Detection實驗

Meta-learning的一些基本概念

文獻1:Few-shot Object Detection via Feature Reweighting論文閱讀

繼續閱讀