天天看點

detection proposals綜述(What makes for effective detection proposals?)

1 介紹(INTRODUCTION)

本文主要對最近的 proposal 檢測方法做一個總結和評價。主要是下面這些方法。

detection proposals綜述(What makes for effective detection proposals?)

2 Detection Proposal 方法(DETECTION PROPOSAL METHODS)

作者将 Detection Proposal 分為兩類,grouping method (将圖檔分為碎片,最後聚合)和 window scoring method (對分成的大量視窗打分)。

2.1 分組 proposal 方法(Grouping proposal methods)

Grouping proposal methods嘗試産生對應于目标的多個區域(可能重疊)。根據它們産生 proposal 的方式可以劃分為三類:superpixels (SP),graph cut (GC) 和 edge contours (EC)。

• SelectiveSearch (SP) [15], [29]:通過貪婪地合并超像素來産生 proposals。這個方法沒有學習的參數,合并超像素的特征和相似函數是手動設定的。它被 R-CNN 和 Fast R-CNN detectors [8], [16] 等最新的目标檢測方法選用。

• RandomizedPrim’s (SP) [26]:使用類似與SelectiveSearch 的特征,但是使用了一個随機的超像素合并過程來學習所有的可能(probabilities)。此外,速度有了極大地提升。

• Rantalankila (SP) [27]:使用類似與SelectiveSearch 的政策,但使用了不同的特征。在後續階段,産生的區域用作求解圖切割的種子點(seeds )(類似于CPMC)。

• Chang (SP) [38]:結合 saliency 和 Objectness 在一個圖模型中來合并超像素實作前景/背景(figure/background)分割。

• CPMC (GC) [13],[19]:避免初始的分割,使用幾個不同的種子點(seeds )和位元(unaries )對像素直接進行圖切割。生成的區域使用一個大的特征池來排序。

• Endres (GC) [14], [21]:從遮擋的邊界建立一個分層(hierarchical )的分割,并且使用不同的種子點和參數來切割圖産生區域。産生的 使用大量的線索和鼓勵多樣性的角度排序。

• Rigor (GC) [28]:是 CPMC 的一個改進,使用多個圖切割和快速的邊緣檢測子來加快計算速度。

• Geodesic (EC) [22]:首先使用 [36] 對圖檔過分割。分類器用來為一個測地距離變換标定種子點。每個距離轉換的水準集(Level sets)定義了(figure/ground)的分割。

• MCG (EC) [23]:基于 [36], 提出一個快速的用于計算多尺度(multi-scale)層次分割程序。使用邊緣強度來合并區域,生成的目标假設(object hypotheses )使用類似于尺度,位置,形狀和邊緣強度的線索來排序。

2.2 視窗評分的 proposal 方法(Window scoring proposal methods)

Window scoring proposal methods 通過對每個候選的視窗根據它們包含目标的機率來打分來産生 proposals 。與 grouping approaches 比,這些方法值傳回邊界框(bounding boxes),是以速度更快。但是,除非它們的視窗采樣密度很高,否則這些方法位置精度很低。

• Objectness [12], [24]:最為最早和最廣泛的一種 proposal 方法。它通過選擇一副圖檔中的顯著性位置作為 proposal,接着通過顔色,邊緣,位置,尺寸,和 superpixel straddling 等多個線索對這些 proposal 打分。

• Rahtu [25]:以 一個包含采樣區域(單個,兩個和三個超像素)和 多個随機采樣的框的大的 proposal 池作為開始。采用類似于 Objectness 的打分政策,但是有些提高 ([40]添加了額外的 low-level features 和 強調了恰當調優的非最大抑制(properly tuned nonmaximum suppression)的重要性)。

• Bing† [18]:通過邊緣訓練一個簡單的線性分類器,并且以一個滑動視窗的方式運作。使用充足的近似,獲得一個非常快的類未知的檢測子 (CUP中每幀 1ms)。CrackingBing [41]表明一個有很小影響和類似性能的分類器可以通過不用檢視圖檔的方式來獲得 (分類性能不是來自于學習而是幾何學)。

• EdgeBoxes† EC [20] :基于目标邊界估計(通過 structured decision forests [36], [42]獲得)形成一個粗糙的滑動視窗模式作為開始,使用一個後續的 refinement 步驟來提高位置精度。不學習參數。作者提出通過調節滑動視窗模式的密度和和非最大抑制的門檻值來調優方法用于不同的重疊門檻值。

• Feng [43] :通過搜尋顯著性圖檔内容來找到 proposal ,提出了一種新的顯著性度量,包括一個潛在的目标能被圖檔的剩餘部分組成。它采用滑動視窗模式,并通過顯著性線索對每個位置打分。

• Zhang [44] :提出在簡單的梯度特征上訓練一個級聯的排序 SVMs。第一階段對不同的尺度和長寬比(aspect ratio)訓練不同的分類器;第二階段對所有獲得的proposals 排序。所有的 SVMs 使用結構性的輸出,對含有更多目标重疊的視窗打分更高。因為級聯在同樣的類别上訓練和測試,是以不太清楚它的泛化能力。

• RandomizedSeeds [45] :使用多個随機的 SEED 超像素映射圖 對每個候選視窗打分。打分政策類似于 Objectness 的 superpixel straddling (沒有額外添加的資訊)。作者展示使用多個超像素映射(superpixel maps )可以明顯地提高召回率。

2.3 其他 proposal 方法(Alternative proposal methods)

• ShapeSharing [47] :是一個無參的資料驅動的方法,通過比對邊轉換目标形狀從範例(exemplars)到測試圖檔。生成的區域使用圖切割合并和提純。

• Multibox [9], [48] :訓練一個神經網絡來直接回歸一定數量的 proposals (不需要在圖檔上滑動網絡)。每個 proposals 都有它自己的位置誤差 。該方法在 ImageNet 表現出最好的結果。

2.4 Proposals VS 級聯(Proposals versus cascades)

Proposals:使用圖像特征産生候選視窗;

級聯(cascades):使用一個快速但是不太精确的分類器抛棄大量不太好的 proposals 。

兩者之間的主要差異是級聯(cascades)要求在訓練過程中一般化對象類别。

proposal 一般化對象類别的原因:1)一個主要的假設是對于足夠大量的類别訓練一個分類器對于一般化未知的類别是充足的(訓練貓和狗後,可以一般化到其他動物)。2)分類器的判别能力經常是受限的,是以阻止分類器過拟合和學習所有目标共享的屬性。

2.5 控制proposals的數量(Controlling the number of proposals)

Ranging from just a few ( ∼ 102) to a large number ( ∼ 105)

3 Proposals 可重複性(PROPOSAL REPEATABILITY)

在檢測 proposals(detection proposals)而不是所有滑動視窗上訓練一個檢測器修改了所有正負視窗的外觀分布(appearance distribution)。本部分我們主要分析負視窗的分布( the distribution of negative windows):如果 proposal 不能一緻地對包含部分或不含目标的相似圖檔産生視窗,分類器就不能對測試集中的負視窗進行評分(if the proposal method does not consistently propose windows on similar image content without objects or with partial objects, the classifier may have difficulty generating scores on negative windows on the test set)。一個極端的例子是訓練資料集中隻包含目标,而測試集中包含目标和負視窗,這樣訓練獲得的分類器将不能區分目标和背景,是以在測試階段會對負視窗給出無用的評分。是以,我們希望 proposals在背景上的一緻性的外觀分布

與檢測器相關。

我們将 proposals 的這種對類似圖檔内容标定的屬性為 proposals 方法的 repeatability 。直覺上來說,proposals 應該對包含相同内容的有輕微差别的圖檔 repeatable 。

3.1 可重複性評估協定(Evaluation protocol for repeatability)

For matching we use the intersection over union (IoU) criterion。

Given the matching, we plot the recall for every IoU threshold and define the repeatability to be the area under this “recall versus IoU threshold” curve between IoU 0 and 1。

3.2 可重複性實驗和結果(Repeatability experiments and results)

detection proposals綜述(What makes for effective detection proposals?)
detection proposals綜述(What makes for effective detection proposals?)
detection proposals綜述(What makes for effective detection proposals?)
detection proposals綜述(What makes for effective detection proposals?)

Small changes to an image cause noticeable differences in the set of detection proposals for all methods except Bing. The higher repeatability of Bing is explained by its sliding window pattern, which has been designed to cover almost all possible annotations with IoU = 0.5 (see also Cracking Bing [41]).

4 Proposals召回(PROPOSAL RECALL)

當使用 proposals 的檢測方法時測試圖檔中的興趣目标要求有一個好的覆寫,因為缺失的目标在後續分類階段不能被恢複。是以通常使用召回率來評價 proposals 的品質。

4.1 召回評價協定(Evaluation protocol for recall)

4.2 召回結果(Recall results)

detection proposals綜述(What makes for effective detection proposals?)
detection proposals綜述(What makes for effective detection proposals?)
detection proposals綜述(What makes for effective detection proposals?)