天天看點

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

作者:計算機視覺研究院
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

計算機視覺研究院專欄

作者:Edison_G

傳統的目标檢測方法通常需要大量的訓練資料,并且準備這樣高品質的訓練資料是勞動密集型的(工作)。在今天分享中,研究者提出了少量樣本的目标檢測網絡,目的是檢測隻有幾個訓練執行個體的未見過的類别對象

公衆号ID|ComputerVisionGzq學習群|掃碼在首頁擷取加入方式源代碼|回複“最佳檢測”擷取

1

前景概要

傳統的目标檢測方法通常需要大量的訓練資料,并且準備這樣高品質的訓練資料是勞動密集型的(工作)。在今天分享中,研究者提出了少量樣本的目标檢測網絡,目的是檢測隻有幾個訓練執行個體的未見過的類别對象。新提出的方法核心是注意力RPN和多關系子產品,充分利用少量訓練樣本和測試集之間的相似度來檢測新對象,同時抑制背景中的錯誤檢測。為了訓練新的網絡,研究者已經準備了一個新的資料集,它包含1000類具有高品質注釋的不同對象。據我們所知,這也是第一個資料集專門設計用于少樣本目标檢測。一旦新網絡被訓練,研究者可以應用目标檢測為未見過的類,而無需進一步的訓練或微調。新提出的方法是通用的,并且具有廣泛的應用範圍。研究者證明了新方法在不同的資料集上的定性和定量的有效性。

解決的問題

少量support的情況,檢測全部的屬于target目标範疇的前景。

2

背景

現有的物體檢測方法通常嚴重依賴大量的注釋資料,并且需要很長的訓練時間。這激發了少量樣本物體檢測的最新發展。鑒于現實世界中物體的光照,形狀,紋理等變化很大,少量樣本學習會遇到挑戰。盡管已經取得了重要的研究和進展,但是所有這些方法都将重點放在圖像分類上,而很少涉及到很少檢測到物體的問題,這很可能是因為轉移從少樣本分類到少樣本目标檢測是一項艱巨的任務。

僅有少數樣本的目标檢測的中心是如何在雜亂的背景中定位看不見的對象,從長遠來看,這是新穎類别中一些帶注釋的示例中對象定位的一個普遍問題。潛在的邊界框很容易錯過看不見的物體,否則可能會在背景産生許多錯誤的檢測結果。我們認為,這是由于區域提議網絡(RPN)輸出的良好邊界框得分不當而導緻難以檢測到新物體。這使得少樣本目标檢測本質上不同于少樣本分類。另一方面,最近用于少樣本物體檢測的工作都需要微調,是以不能直接應用于新穎類别。

在今天分享的文章中,作者解決了少樣本目标檢測的問題:給定一些新穎目标對象的支援圖像,我們的目标是檢測測試集中屬于目标對象類别的所有前景對象,如下圖所示。

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

3

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset

進行少量學習的關鍵在于,當新穎的類别出現時,相關模型的泛化能力。是以,具有大量對象類别的高多樣性資料集對于訓練可以檢測到看不見的對象的通用模型以及執行令人信服的評估是必要的。但是,現有的資料集包含的類别非常有限,并且不是在一次性評估設定中設計的。是以,我們建立了一個新的少樣本物體檢測資料集。我們從現有的大規模對象檢測資料集建構資料集以進行監督學習。但是,由于以下原因,這些資料集無法直接使用:

  • 不同資料集的标簽系統是在某些具有相同語義的對象用不同的詞注釋的地方不一緻;
  • 由于标簽不正确和缺失,重複的框,對象太大,現有注釋的很大一部分是嘈雜的;
  • 他們的訓練/測試組包含相同的類别,而對于少樣本設定,我們希望訓練/測試組包含不同的類别,以評估其在看不見的類别上的普遍性。

為了開始建構資料集,首先從中總結标簽系統。我們将葉子标簽合并到其原始标簽樹中,方法是将相同語義(例如,冰熊和北極熊)的葉子标簽歸為一類,并删除不屬于任何葉子類别的語義。然後,我們删除标簽品質差的圖像和帶有不合适尺寸的盒子的圖像。具體而言,删除的圖像的框小于圖像尺寸的0.05%,通常框的視覺品質較差,不适合用作支援示例。接下來,我們遵循幾次學習設定,将我們的資料分為訓練集和測試集,而沒有重疊的類别。如果研究人員更喜歡預訓練階段,我們将在MS COCO資料集中按類别建構訓練集。然後,我們通過選擇現有訓練類别中距離最大的類别來劃分包含200個類别的測試集,其中距離是連接配接is-a分類法中兩個短語的含義的最短路徑。其餘類别将合并到總共包含800個類别的訓練集中。總而言之,我們建構了一個包含1000個類别的資料集,其中明确地劃分了類别用于訓練和測試,其中531個類别來自ImageNet資料集,而469來自開放圖像資料集。

資料集分析

資料集是專為幾次學習和評估新穎類别模型的通用性而設計的,該模型包含1000個類别,分别用于訓練和測試集的800/200分割,總共約66,000張圖像和182,000個邊界框。下表和下圖顯示了詳細的統計資訊。我們的資料集具有以下屬性。

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

類别高度多樣性

包含了83中父類語義,例如哺乳動物,衣服,武器等,這些語義進一步細分為1000個葉子類别。我們的标簽樹如上圖所示。由于嚴格的資料集劃分,我們的訓練/測試集包含了非常不同的語義類别的圖像,是以給要評估的模型帶來了挑戰。

4

新架構分析

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

在RPN前加一個attention,在檢測器之前加了3個attention,然後還是用到了負support訓練。具體來說,我們建構了一個由多個分支組成的權重共享架構,其中一個分支用于查詢集,另一個分支用于支援集(為簡單起見,我們在圖中僅顯示了一個支援分支)。權重共享架構的查詢分支是Faster R-CNN網絡,其中包含RPN和檢測器。我們利用此架構來訓練支援和查詢功能之間的比對關系,使網絡學習相同類别之間的常識。在該架構的基礎上,我們引入了一種新穎的注意力RPN和具有多關系子產品的檢測器,用于在支援框和查詢框之間産生準确的查詢解析。

Attention-Based Region Proposal Network

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

沒有support,RPN就沒有目标,後面的子分類就搞不清楚這麼多的不相關目标。使用support資訊就能過濾掉大部分的背景框,還有那些不是比對的類别。通過在RPN中用attention機制來引入support資訊,來對其他類的proposal進行壓制。通過逐深度的方法計算二者特征值的相似性,相似性用來生成proposal。相似度定義如下:

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

其中GGG是attention特征圖,X作為一個卷積核在query的特征圖上滑動,以一種逐深度(取平均)的方式。使用的是RPN的底部特征,ResNet50的res4-6,發現設定S=1表現很好,這說明全局特征能提供一個好的先驗G用3×3的卷積處理,然後接分類和回歸層。

Multi-Relation Detector

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

不同的關系子產品模組化查詢和支援圖像之間的不同關系。全局關系子產品使用全局表示來比對圖像;局部關系子產品捕獲像素到像素的比對關系;更新檔關系子產品對一對多像素關系進行模組化。該檢測器包括三個注意子產品,分别是要學習的全局關系子產品在深度嵌入的全局比對中,局部相關子產品學習支援和查詢建議之間的像素級和深度互相關,而更新檔關系子產品則學習深度非線性度量以用于更新檔比對。我們通過實驗證明,三個比對的子產品可以互相補充以産生更高的性能。需要哪些關系子產品?我們遵循RepMet中提出的Kway N-shot評估協定來評估我們的關系子產品和其他元件。表2顯示了我們在FSOD資料集的簡單1-way 1-shot訓練政策和5-way 5-shot評估下對我們提出的多關系檢測器的模型簡化測試。此後,我們對FSOD資料集上的所有模型簡化測試使用相同的評估設定。對于單個子產品,本地關系子產品在AP50和AP75評估中均表現最佳。出人意料的是,盡管更新檔關系子產品對圖像之間更複雜的關系進行模組化,但其性能比其他關系子產品差。我們認為,複雜的關系子產品使模型難以學習。當組合任何兩種類型的關系子產品時,我們獲得的性能要優于單個關系子產品。通過組合所有的關系子產品,我們獲得了完整的多重關系檢測器,并獲得了最佳性能,表明三個提出的關系子產品互相補充,可以更好地區分目标與不比對的對象。是以,以下所有實驗均采用完整的多關系檢測器。

Two-way Contrastive Training Strategy

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

2次對比訓練三聯體和不同的比對結果。在查詢圖像中,隻有正支援與目标基本事實具有相同的類别。比對對包括正面支援和前景建議,非比對對具有三類:(1)正面支援和背景建議;(2)負面支援和前景建議;(3)負面支援和負面建議。選擇訓練政策:

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

哪個RPN更好?

我們根據不同的評估名額評估注意力RPN。為了評估提案品質,我們首先評估正常RPN和建議的RPN超過0.5 IoU門檻值的前100個提案的召回率。我們關注的RPN具有比正常RPN更好的召回性能(0.9130對0.8804)。然後,我們針對這兩個RPN評估整個ground truth框的平均最佳重疊率(ABO)。注意RPN的ABO為0.7282,而正常RPN的相同度量為0.7127。這些結果表明,關注RPN可以生成更多高品質的建議。上表進一步比較了在不同訓練政策下具有注意力RPN的模型和具有正常RPN的模型。在AP50和AP75評估中,注意力RPN的模型始終表現出比正常RPN更好的性能。在AP50 / AP75評估中,注意力RPN在1-way 1-shot訓練政策中産生0.9%/ 2.0%的收益,在2-way 5-shot訓練政策中産生2.0%/ 2.1%的收益。這些結果證明,我們注意力的RPN會産生更好的建議并有益于最終的檢測預測。是以,在我們的完整模型中采用了注意力RPN。

5

實驗結果

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

實驗可視化

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)
帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

© THE END

轉載請聯系本公衆号獲得授權

帶有注意力RPN和多關系檢測器的小樣本目标檢測網絡(提供源碼和資料及下載下傳)

計算機視覺研究院學習群等你加入!

計算機視覺研究院主要涉及深度學習領域,主要緻力于人臉檢測、人臉識别,多目标檢測、目标跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新架構,我們這次改革不同點就是,我們要着重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!

計算機視覺研究院

公衆号ID|ComputerVisionGzq

源代碼|關注回複“最佳檢測”擷取

🔗

繼續閱讀