計算機視覺研究院專欄
作者:Edison_G
Sparse R-CNN抛棄了anchor boxes或者reference point等dense概念,直接從a sparse set of learnable proposals出發,沒有NMS後處理,整個網絡異常幹淨和簡潔,可以看做是一個全新的檢測範式。
公衆号ID|ComputerVisionGzq
學習群|掃碼在首頁擷取加入方式
1 簡要
目前目标檢測成熟的算法都是基于Dense prior(密集的先驗,比如anchors、reference points),但密集的先驗存在很多問題:1)會檢測出很多相似的結果,需要後處理(比如NMS)來過濾;2)many-to-one label assignment 問題(作者描述為 many-to-one 正負樣本配置設定),猜測意思是我們在設定pred和gt時,一般不是一對一的關系,可能是有多個preds,看看哪個與gt更符合;3)檢測結果與先驗的關系非常密切(anchors的數量、大小,reference points的密級程度、proposal生成的數量)。
是以,有研究者提出了稀疏RCNN(Sparse R-CNN),一種圖像中目标檢測的純稀疏方法。現有的目标檢測工作很大程度上依賴于密集的候選目标,如所有H×W的圖像特征圖網格上預定義的k個anchor boxes。
然而,在新提出的方法中,提供了一套固定的稀疏的學習候選目标,總長度N,給目标檢測頭進行分類和定位。通過消除H*W*k(多達數十萬)手工設計的候選目标到N(例如100)可學習的建議,Sparse R-CNN完全避免了所有與候選目标的設計和多對一的标簽配置設定相關的工作。更重要的是,最終的預測是直接輸出的,而沒有非極大抑制的後處理。SparseR-CNN證明了準确性、運作時和訓練收斂性能,與具有挑戰性的COCO資料集上建立的檢測器基線相當,例如,在标準3×訓練計劃中實作45.0AP,并使用ResNet-50FPN模型以22fps的速度運作。
作者是希望新的架構能夠激發人們重新思考目标檢測器中密集先驗的慣例。
2 背景
不同目标檢測pipelines的比較。(a)Dense,HWk候選目标枚舉在所有的圖像網格上,例如。RetinaNet;(b)Dense-to-Sparse,它們從密集的HWk候選目标中選擇一小組N個候選目标,然後通過池化操作提取相應區域内的圖像特征,如Faster R-CNN;(c)研究者提出的Sparse R-CNN,直接提供了一小組N個學習的候選目标,這裡N遠小于HWk。
DenseNet
是CVPR2017的oral,非常厲害。文章提出的DenseNet(Dense Convolutional Network)主要還是和ResNet及Inception網絡做對比,思想上有借鑒,但卻是全新的結構,網絡結構并不複雜,卻非常有效!衆所周知,最近一兩年卷積神經網絡提高效果的方向,要麼深(比如ResNet,解決了網絡深時候的梯度消失問題)要麼寬(比如GoogleNet的Inception),而作者則是從feature入手,通過對feature的極緻利用達到更好的效果和更少的參數。主要優化:
- 減輕了vanishing-gradient(梯度消失)
- 加強了feature的傳遞
- 更有效地利用了feature
- 一定程度上較少了參數數量
在深度學習網絡中,随着網絡深度的加深,梯度消失問題會愈加明顯,目前很多論文都針對這個問題提出了解決方案,比如ResNet,Highway Networks,Stochastic depth,FractalNets等,盡管這些算法的網絡結構有差别,但是核心都在于:create short paths from early layers to later layers。那麼作者是怎麼做呢?延續這個思路,那就是在保證網絡中層與層之間最大程度的資訊傳輸的前提下,直接将所有層連接配接起來!
RetinaNet
提出一個新的損失函數,在解決類别不均衡問題上比之前的方法更有效。損失函數是動态縮放的交叉熵損失,其中縮放因子随着對正确類别的置信度增加而衰減到零(如下圖)。直覺地說,這個縮放因子可以自動降低訓練過程中簡單樣本的貢獻,并快速将模型集中在困難樣本上。實驗發現,Focal Loss在one-stage檢測器上的精确度勝過之前的state-of-art的啟發式采樣和困難樣本挖掘。最後,focal loss的具體公式形式不是關鍵的,其它的示例可以達到類似的結果。
設計了一個名叫RetinaNet的one-stage對象檢測器來說明focalloss的有效性,RetinaNet命名來源于在輸入圖像上的密集采樣。它基于ResNet-101- FPN主幹網,以5fps的運作速度下,在COCO test-dev上取得了39.1 AP的成績,超過目前公開的單一模型在one-stage和two-stage檢測器上取得的最好成績。
3 新架構
- 資料輸入包括an image, a set of proposal boxes and proposal features
- 使用FPN作為Backbone,處理圖像
- 下圖中的Proposal Boxes: N*4是一組參數,跟backbone沒啥關系
- 下圖中的proposals features和backbone也沒啥關系
Learnable porposal box
- 跟backbone沒有什麼關系
- 可以看成是物體潛在位置的統計機率
- 訓練的時候可以更新參數
Learnable proposal feature
- 跟backbone沒有什麼關系
- 之前的proposal box是一個比較簡潔、卻的方法來描述物體,但缺少了很多資訊,比如物體的形狀與姿态
- proposal feature就是用來表示更多的物體資訊。
Dynamic instance interactive head
- 通過proposal boxes以及ROI方法擷取每個物體的特征,然後與proposal feature結合得到最終預測結果
- Head的數量與learnable box的數量相同,即head/learnable proposal box/learnable proposal feature一一對應
Sparse R-CNN的兩個顯著特點就是sparse object candidates和sparse feature interaction,既沒有dense的成千上萬的candidates,也沒有dense的global feature interaction。Sparse R-CNN可以看作是目标檢測架構從dense到dense-to-sparse到sparse的一個方向拓展。
4 實驗&可視化
COCO 2017 val set測試結果
COCO 2017 test-dev set
可視化疊代架構中每個階段的預測框,包括學習到的候選框。學習到的候選框以白色繪制。顯示了分類分數超過0.3的預測框。同一候選類的框以相同顔色繪制,學習到的候選框被随機分布在圖像上,并一起覆寫整個圖像。疊代頭逐漸細化邊界框位置,删除重複的。
上圖顯示了converged model的學習到的候選框。這些方框被随機分布在圖像上,以覆寫整個圖像區域。這保證了在稀疏候選條件下的召回性能。此外,每個階段的級聯頭逐漸細化邊界框的位置,并删除重複的位置。這就導緻了高精度的性能。上圖還顯示了Sparse R-CNN在罕見場景和人群場景中都表現出穩健的性能。對于罕見場景中的目标,其重複的方框将在幾個階段内被删除。擁擠的場景需要更多的階段來細化,但最終每個目标都被精确而唯一地檢測到。
© THE END
轉載請聯系本公衆号獲得授權
計算機視覺研究院學習群等你加入!
計算機視覺研究院主要涉及深度學習領域,主要緻力于人臉檢測、人臉識别,多目标檢測、目标跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新架構,我們這次改革不同點就是,我們要着重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!
計算機視覺研究院
公衆号ID|ComputerVisionGzq
源碼下載下傳| 回複“SRCNN”擷取源碼下載下傳
🔗