天天看點

【論文筆記】:Segmentation Is All You Need

&Title:

  • Segmentation Is All You Need
  • 代碼 None

&Summary

作者提出了 第一個無錨(anchor-free)和無NMS(NMS-free) 的目标檢測模型,稱為弱監督多模式注釋分割(WSMA-Seg),該模型 利用分割模型實作了無需NMS的準确而魯棒的目标檢測 。在WSMA-Seg中,提出了多模式注釋(目标輪廓注釋、目标邊界注釋、目标相交區域邊界注釋),以使用弱監督邊界框實作執行個體感覺的分割。我們還開發了一種基于運作資料的跟蹤算法來跟蹤對象的輪廓。此外,我們提出了多尺度池化分割(MSP-Seg) 作為WSMA-Seg的基礎分割模型,以實作更準确的分割并提高WSMA-Seg的檢測精度。在多個資料集上的實驗結果表明,提出的WSMA-Seg方法優于最新的檢測器。

總結:用bounding box生成上面所說的三種注釋(四邊形 >> 内接橢圓),用這三種注釋訓練出一個分割模型,然後測試的時候,用分割模型輸出執行個體感覺分割圖,在通過輪廓跟蹤操作以生成目标的輪廓,然後通過建立目标的邊界框作為其輪廓的外接四邊形。

&Research Objective

使用分割的思想來解決在目标檢測中極端環境下的問題。

  • anchor-free + NMS-free + seg

&Problem Statement

目前目标檢測算法中有兩個子產品比較重要: region proposal networks (RPNs) 和 non-maximum suppression (NMS) ,雖然這兩個子產品解決目标檢測中的一些問題,但是它們也引入了一些難以克服的問題。

如下圖,RPN方法在以下三種極端環境下表現很差

【論文筆記】:Segmentation Is All You Need
Although they can generally achieve a good detection performance under normal circumstances, their recall in a scene with extreme cases is unacceptably low. This is mainly because bounding box annotations contain much environment noise information, and non-maximum suppression (NMS) is required to select target boxes.

挑戰(問題):

  • RPN高度依賴Bounding box,但是對于一些極端的例子,人工标注的ground truth 含有很多噪音
  • NMS很難(有時甚至是不可能)找到合适的門檻值以适應極端情況下的非常複雜的情況。
摘自文章
  • 邊界框(Bounding Box)不應該存在

    雖然 anchor 的存在減少了很多計算量,但是也帶來了超參數增加、人為調參過拟合評測資料集、前後景目标類别不平衡等一系列令人頭疼的問題。

    讓我們回到邊界框的本質。所有的邊界框其實都是一種無限制保證前景物體像素召回率的标注方式,它會盡可能貼着外輪廓,是以會導緻背景像素大量進入框内。然而,真實世界的物體可以随意轉動,不同的機位拍一個 3D 物體出現的結果可以大不相同,是以用框作為一個表征工具來把東西框起來,本身就不穩健。而且,框的标注本身也帶有一定的随機性,畢竟要遵守标注規則把框标得非常好可能花的成本也會很高。

  • 非極大值抑制(NMS)不應該存在

    NMS 是一項很神奇的工作,目标檢測領域用 NMS 作為選框政策已經有大概幾十年了,因為沒有一項工作能超越它。然而如上所述,既然邊界框本身并不穩健,選出的框再優秀也無濟于事。更何況選出的框也不會格外優秀,因為真實世界裡不可能有一個具體的門檻值來控制所有的場景,例如遮擋問題。現實世界中的遮擋問題十分複雜,擋了一部分和擋了一大半完全不是同一種情況。既然如此,用一個單一的門檻值怎麼可能解決問題?事實上,在之前的工作中,動态調整 NMS 的 SoftNMS、動态調整 IoU 的 Cascade RCNN 方案都取得了很不錯的結果,但是前者依然回避了「複雜遮擋」的複雜性,後者參數量激增,速度慢到難以想象。

&Method(s)

提出了一種弱監督的多模式注釋分割(WSMA-Seg)方法,該方法使用分割模型來實作無NMS的準确而魯棒的對象檢測。

它包括兩個階段

訓練階段:

  • WSMA-Seg首先将弱監督的邊界框注釋轉換為具有三個通道的像素級分段式蒙版,分别代表内部蒙版資訊的内部,邊界和邊界。産生的注釋稱為多模式注釋;
  • 然後,将多峰注釋用作标簽以訓練基礎的分割模型,以學習訓練圖像的相應多峰熱圖。
【論文筆記】:Segmentation Is All You Need

測試階段:

  • 首先将給定的測試圖像發送到訓練好的分割模型中以獲得多模态熱圖。
  • 基于像素級邏輯運算将得到的三個熱圖轉換為執行個體感覺的分割圖;
  • 最後,使用分割圖進行輪廓跟蹤操作以生成對象的輪廓,然後将對象的邊界框建立為其輪廓的外接四邊形。
【論文筆記】:Segmentation Is All You Need

WSMA-Seg的優點:

  • 作為無NMS的解決方案,WSMA-Seg避免了所有與錨框和NMS相關的超參數; 是以,也避免了上述門檻值選擇問題。
  • 通過利用類似分段的多模式注釋的拓撲結構可以減輕複雜的遮擋問題;
  • 多模式注釋是像素級注釋; 是以,他們可以更準确地描述物體并克服上述環境噪聲問題。

WSMA-Seg的主要部分:(待完成)

Generating Multimodal Annotations

Multi-Scale Pooling Segmentation

【論文筆記】:Segmentation Is All You Need
【論文筆記】:Segmentation Is All You Need

Object Detection Using Segmentation Results and Contour Tracing

【論文筆記】:Segmentation Is All You Need
【論文筆記】:Segmentation Is All You Need

&Evaluation

分别在三個資料集上做了實驗:Rebar Head dataset、WIDER Face、MS COCO,以下是各個實驗的對比結果

  • Rebar Head dataset
    【論文筆記】:Segmentation Is All You Need
  • WIDER Face
    【論文筆記】:Segmentation Is All You Need
  • MS COCO
    【論文筆記】:Segmentation Is All You Need

&Conclusion

提出了一種新的圖像中目标檢測方法,稱為 弱監督多模式注釋分割(WSMA-Seg),該方法 無錨且無NMS。我們觀察到 NMS是現有的深度學習方法中圖像對象檢測的瓶頸之一。在NMS上調整超參數的需求嚴重阻礙了高性能檢測架構的可伸縮性。是以,為了實作WSMA-Seg,我們提出使用 多模式注釋來實作基于弱監督邊界框的執行個體感覺分割,并開發了一種 基于運作資料的跟蹤算法來跟蹤對象的輪廓。此外,提出了一種 多尺度池化分割(MSP-Seg)模型作為WSMA-Seg的基礎分段模型,以實作更準确的分段并提高WSMA-Seg的檢測精度。

個人啟發:

  • 分割的思想做檢測

    最近已經看到好多篇用分割的思想或者方法來做檢測,而且做出來的效果很好。有一個原因我認為是,分割比檢測更細,拿一個更細的方法來解決粗的問題,肯定效果更好咯,舉本論文的例子,分割的标注比檢測的标注(bounding box)是不是背景資訊更少了?這樣不就降低模型學習的難度,同時增加預測邊框的置信度等。是以往後可以多看些分割的論文,找找靈感了。

  • 将框轉換為其他的三種标注注釋,速度會不會就變得慢了呢???文章沒有速度的消融實驗。
  • 因為不是做分割的,也不知道提出的module如何,有沒有可圈可點的地方?日後研究相關分割方向的算法再來補充。

&Notes

Contributions

  • 我們提出了一種弱監督的多模式注釋分割(WSMA-Seg)方法,以在不使用NMS的情況下實作準确而強大的對象檢測,這是第一種無錨和無NMS的對象檢測方法。
  • 我們提出了多模式注釋,以使用弱監督邊界框實作執行個體感覺的分割; 我們還開發了一種基于運作資料的跟蹤算法來跟蹤對象的輪廓。
  • 我們提出了一種多尺度合并分段(MSP-Seg)模型,以實作更準确的分段并提高WSMA-Seg的檢測準确性。
  • 我們對Rebar Head,WIDER Face和MS COCO資料集進行了廣泛的實驗研究; 結果表明,所提出的WSMA-Seg方法在所有測試資料集上均優于最新的檢測器。

參考

  • 解讀目标檢測新範式:Segmentations is All You Need

繼續閱讀