天天看點

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

目錄

  • 論文相關資訊
  • 摘要
  • 1. 介紹
  • 2. 相關工作
  • 3. RepPoints表示
    • 3.1 邊框表示
    • 3.2 RepPoints
  • 4. RPDet: 一個anchor-free的檢測器
  • 5. 實驗
    • 實驗的設定
    • 消融實驗
    • State-of-the-art Comparison
  • 結論

論文相關資訊

1.論文題目:RepPoints: Point Set Representation for Object Detection

2.發表時間:ICCV 2019

3.文獻位址:http://openaccess.thecvf.com/content_ICCV_2019/html/Yang_RepPoints_Point_Set_Representation_for_Object_Detection_ICCV_2019_paper.html

4.論文源碼:https://github.com/microsoft/RepPoints

創新:新的目标表示方法RepPoints,基于此表示方法提出了新的檢測網絡

摘要

現代目标檢測器嚴重依賴于矩形邊框來在不同的stage表征物體,如anchor,proposals以及最終的預測。邊框使用起來很友善,但是邊框隻是較粗略的物體定位,進而提取的也是較粗略的物體特征。于是這篇文章抛棄了邊框,提出RepPoint(representative points代表點)作為物體的更好的代表,即使用一些樣本點來做定位和預測。給定物體的位置和類别,RepPoints會自動學習這些點的分布以限制一個物體的空間範圍和表示語義上重要的局部區域。RepPoints這樣的基于anchor-free 的檢測器能夠取得和目前SOTA的基于anchor的檢測器一樣的性能。COCO test-dev上其精度為46.5 AP , 67.4 AP50,骨幹網使用的是ResNet-101。

1. 介紹

目标檢測中邊框的流行可歸因于兩點。一是它所有的評估名額比較通用,表示了預測和物體間的重疊度;二是它計算較容易,容易劃分池化的集合。但是其缺點前面也提到了,就是它劃定的空間是粗略的(coarse),不能很好的貼合實際物體的形狀,是以其檢測性能會很容易受到背景内容以及無意義的前景區域的影響,進而使提取的特征品質和檢測性能下降。

這篇文章提出的RepPoints,也就是利用n個點來包圍物體以及辨別一些有重要語義特征的區域(如圖1所示),其訓練是同時受目标位置和識别對象所驅動。RepPoints是自頂向下地從輸入圖檔或目标特征學習,能夠端到端的訓練,屬于two-stage家族,無需額外的監督就能預測位置精準的預測。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

圖1. RepPoints是目标檢測的一種新的目标表示,由一些點組成,這些點表示了物體空間的範圍以及一些語義重要的局部區域。這種表示通過真實框的若定位監督和隐式的識别回報來學習得到。本文基于這種豐富的RepPoints表示發展了一種anchor-free的檢測器,這種檢測器的性能比使用邊框來表示的檢測器更好。

2. 相關工作

邊框在目标檢測問題中的應用:邊框現在是目标檢測領域中表示物體的主流形式,其流行的原因之一是邊框友善标準,沒有歧義,且為子識别任務提供了足夠的位置精度。是以目前的主流benchmarks都是基于邊框來标準和評估的,這也進而推動了目标檢測算法使用邊框作為基本的表示。原因二是因為很多的特征提取器是使用帶有規則格子的patch作為輸入,是以使用邊框的話提取很友善。雖然RepPoints是不規則的,但是也能友善地提取特征,它與可變性卷積相結合起來,從幾個采樣點的輸入特征中聚合資訊。并且,RepPoints也可以生成僞框,使得表示能夠用在benchmark上。

現代目标檢測器中的邊框:目前最先進的目标檢測器都是多階段的,并且在每個階段都有邊框的身影。RepPoints可以替代每個階段的邊框表示,得到更高效的檢測器。特别注意的是,anchor被中心點所替代,中心點是RepPoints中的特殊配置。 建議框和最終定位目标被RepPoints建議和最終目标替代。由于使用了中心點作為初始目标的表示,得到的檢測器是anchor-free的,甚至比基于anchor的檢測器更友善。

其他目标檢測的表示:有bottom-up和top-down兩種方式的表示。bottom-up的有CornerNet和ExtremeNet這樣的,他們都需要在确定點之後給關鍵點分組,即有額外的後處理操作。top-down 的則有RepPoints。

目辨別别中的可變性模組化:視覺識别的一大挑戰是識别形狀各異的物體,為了模組化适應這種變化,已有的工作有自上而下的可變性模組化方法DCN(Deformable convolutional

networks),RepPoints和其的主要差別在于RepPoints除了能夠提取語義特征外,還能夠得到更加靈活的且位置精準的目标表示。與之成對比的是, deformable convolution 和 deformable RoI pooling都隻是為了提高特征提取性能。,而無法得到準确的幾何定位。

3. RepPoints表示

3.1 邊框表示

之前邊框回歸時學習對象是預測的邊框和真實邊框之間的距離,通過訓練得到4個參數來回歸預測邊框,使得回歸後的邊框和真實邊框盡可能接近。但是這種方式在初始表示和真實框的距離比較遠時表現很差,而且四個參數見中心位置的偏移和寬高的偏移的尺度差異很大,需要設定不同的損失權重。

3.2 RepPoints

邊框采用的是一個4維向量來粗略表示是目标位置,忽略了一些重要語義區域的形狀、姿勢和位置,為了克服以上限制,RepPoints提出了以一個采樣點集合來替代4維向量模組化:

R = { ( x k , y k ) } k = 1 n R=\left\{(x_k,y_k)\right\}_{k=1}^n R={(xk​,yk​)}k=1n​, (4)

其中n是用于表示的總采樣點數,文章中n預設為9。

RepPoints refinement:RepPoints的精煉可以被簡單的表示如下:

R r = { ( x k + Δ x k , y k + Δ y k ) } k = 1 n R_r=\left\{(x_k+\Delta x_k,y_k+\Delta y_k)\right\}_{k=1}^n Rr​={(xk​+Δxk​,yk​+Δyk​)}k=1n​, (5)

其中 { Δ x k , Δ y k } k = 1 n \left\{\Delta x_k,\Delta y_k\right\}_{k=1}^n {Δxk​,Δyk​}k=1n​是新采樣點相對于舊采樣點的偏移。這種精煉不會遇到邊框回歸參數的尺度差異的問題,因為RepPoints精煉的過程種所有偏移都在同一尺度。

将RepPoints轉換為邊框:在訓練時需要利用邊框形式的标注,此外評估時也需要将預測轉為邊框形式,是以需要一種将RepPoints轉為邊框的方法。這裡通過一種預定義的函數 T \mathcal{T} T來實作這個轉換: R p → B p R_p \to B_p Rp​→Bp​, R p R_p Rp​指代的是物體P的RepPoints, T ( R p ) \mathcal{T(R_p)} T(Rp​)指代的是一個僞邊框。

有三種轉換函數能夠實作這個目的:

T = T 1 \mathcal{T}=\mathcal{T_1} T=T1​:Min-max函數。

…具體如下圖

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

學習RepPoints:RepPoints的學習同時目标位置損失和目辨別别損失驅動。為了計算目标位置損失,首先需要通過上一步的轉換函數将RepPoints轉換為僞邊框,然後計算僞邊框和真實框的差異,這裡适用的是smooth l 1 l_1 l1​來計算左上角和右下角的距離,但是不需要調整損失的權重。圖4顯示了訓練同時受目标位置和目辨別别損失驅動時,物體的極點和語義關鍵點就能自動學習。

4. RPDet: 一個anchor-free的檢測器

作者設計了一個anchor-free的檢測器,其整體架構見圖2,适用RepPoints替代了邊框作為基礎的表示。在多階段的檢測流中,目标表示的演變過程如下:

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

RepPoints Detector (RPDet)由兩個基于可變性卷積的識别階段構成,如圖2所示。可變性卷積是基于不規則分布的采樣點計算的,并且其識别回報能反過來知道這些點的位置的訓練,是以能夠和RepPoints很好的配合。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

圖2.RPDet的整體圖。該檢測器采用FPN作為骨幹網,為了清楚表示,隻畫了一個尺度的特征圖。所有尺度的特征圖共享後面的網絡架構并且有着一樣的參數。

基于中心點的目标初始化表示:中心點表示的好處在于其假設空間小,比起基于anchor的方法需要大量不同尺度和比例的anchor來覆寫很大的4維假設空間,中心點的2維假設空間很容易覆寫。其缺點在于兩個不同的物體的中心位于同一特征圖的同一位置時會出現目标模糊問題,這限制了其發展。RPDet通過FPN結構極大的緩解了這一問題,首先,中心點在同一位置的不同尺度的物體會被配置設定到不同的特征層上,其次,FPN有着高分辨率,這也降低了兩個物體中心處于同一特征點的機率。此外,作者觀察到實際種中,COCO資料集隻有1.1%物體在使用FPN後還存在中心點重疊的問題。

中心點可以視為RepPoints的特殊配置,其中隻有一個固定的采樣點被使用,進而整個檢測架構可以維持一緻的表示方式。

RepPoints的使用:RepPoints在整個檢測系統中充當着基本的物體表示。起初是中心點,然後第一個RepPoints集合通過在中心點上的回歸得到。RepPoints的學習受兩點驅動:1)僞框和真實框左上角和右下角的距離損失;2)下一階段的目辨別别損失。

如圖4所示,極點和關鍵點會自動的學習。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

圖4.學習到的RepPoints和生成的邊框的示意圖。總體而言,學習到的RepPoints位于物體的極點和語義關鍵點上。

第二個RepPoints集合表示的是最終的目标定位,由上面提到的等式5精煉得到。

Backbone 和 head architectures :這裡采用的骨幹網和RetinaNet一樣,生成5個特征圖(stage3-7,下采樣8倍到128倍)。其中head網絡架構如圖3所示。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

圖3.RPDet的head網絡。

其head網絡有兩個非共享的子網絡,即定位網絡和分類網絡。其中定位網絡在3個卷積之後跟着兩個連續的小網絡用于計算兩個RepPoints集合的偏移。分類網絡在三個卷積層之後應用一個可變性卷積,它同時把一階段的偏移作為輸入。在每個分支的前三個256通道的3×3卷積後都應用了組卷積(ground normalization)。

雖然網絡使用了two stage的定位,但是它甚至比one stage 的RetinaNet更高效。

Localization/class target assignment。有兩個定位階段:從目标中心點假設精煉得到第一個RepPoints集合;從第一個RepPoints集合精煉得到第二個RepPoints集合。在兩個階段中,都隻有正的目标假設(positive object hypothesis)會被配置設定定位對象來訓練。對于第一個定位階段,如果滿足以下兩個條件,納悶這個特征圖格子(bin)為positive:1)如果這個特征圖格子的金字塔level等于真實物體的log尺寸,即 s ( B ) = ⌊ l o g 2 ( w B h B / 4 ) ⌋ s(B)=\left \lfloor log_2(\sqrt{w_Bh_B}/4)\right \rfloor s(B)=⌊log2​(wB​hB​

​/4)⌋;2)該真實物體的中心在這個特征圖上的映射位于這個bin内。第二個定位階段,如果第一個階段得到的RepPoints生成的僞框和真實框的IoU大于0.5則為正(positive)。

分類隻在第一個RepPoints上之上執行,分類的标準也和RetinaNet一樣,IoU大于0.5為positive,小于0.4表示背景,其它的則忽略。此外,還使用了RetinaNet作為分類的訓練。

5. 實驗

實驗的設定

實驗是基于MS-COCO資料集,SOTA比較在test-dev集合進行。訓練時,使用的SGD,4個GPUs,8張圖檔每個minibatch,2張圖檔每個GPU。采用了ImageNet預訓練模型來初始化,學習率方案使用的是“1x”設定。還有随機水準圖檔反正的資料增強。推斷時,和RetinaNet一樣使用NMS(\sigma=0.5)做後處理。

消融實驗

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表1.邊框表示和RepPoints表示的消融實驗。除了表示方式不同,其餘都相同。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表2.監督資源的消融學習。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表3.不同初始目标表示的消融實驗。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表4.RPDet與其他基于anchor的和anchor-free(YOLO-like)方法的比較。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表5.将RepPoints變換到僞邊框的不同方法消融實驗。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表6.應用deformable RoI pooling。

State-of-the-art Comparison

RPDet與sota檢測器在MS COCO的test dev上的比較。

目标檢測|新的目标表示方法RepPoints論文相關資訊摘要1. 介紹2. 相關工作3. RepPoints表示4. RPDet: 一個anchor-free的檢測器5. 實驗結論

表7.RPDet和目前SOTA檢測器的比較。ms指代多尺度。可見RPDet的AP50相對很高。

結論

文章提出了一種新的目标表示方法RepPoints,這種表示方法能夠得到精确的位置資訊并标記重要的語義區域,基于這種表示方法作者提出一種新的檢測器RPDet,文章指出未來更加語義豐富和自然的目标表示方法是一個充滿前景的研究方向。

繼續閱讀