天天看點

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

論文閱讀之DA-Net:用于場景分割的雙重注意力模型

cvpr2019

paper

code

摘要

本文主要聚焦于通過注意力機制采集豐富的上下文資訊用于場景分割,但不同于多級特征融合的方式,而是提出了一種雙重注意力模型(DA-Net),在使用空洞卷積的FCN基礎上引入兩種注意力機制:空間和通道維。

空間注意力通過計算同一像素點所有feature的權重和得到,是以相似特征的關聯性不會因為距離遠近就丢失掉;通道注意力則會在所有通道中挑選出具有代表性的通道。

結合兩種注意力機制提供的資訊有助于進一步提升網絡的分割性能,最終在Cityscapes,PASCAL和COCO資料集上取得了SOTA。

Section I Introduction

場景分割是主要通過語義分割的方式将圖檔分割為具有不同語義資訊的部分,是一項基礎且具有挑戰性的計算機視覺類任務,可進一步用于自動駕駛、機器人感覺及圖像編輯等領域。這一過程就需要對容易混淆的實體或同類但外形差異較大的物體進行精确分割,比如草地和路面就較難區分,車輛的分割也經常受到大小、遮擋、光照等因素的影響。是以,提取更加顯著的特征表達對于像素級别的分類十分重要。

在分割領域目前的SOTA結果大多以FCN為基礎網絡,優化之一是進行多級特征的融合。比如将不同層次的特征圖譜combine在一起,或者通過增加編碼或解碼結構獲得更加豐富的全局資訊,比如UNet結構等,将mid-level和high-level提取的特征進行了融合。

另一個優化方向是通過循環神經網絡來提取圖像長期記憶之間的依賴關系,一般以2D LSTM網絡為基礎,主要用于捕獲空間資訊上的關系,但學習的性能依賴于長期記憶機制的學習結果。

為了解決上述問題,本文提出了雙重注意力機制網絡用于自然圖像的分割。結構如Fig2所示。雙重注意力機制通過position attention module和channel attention module在空間和通道次元上有效捕獲特征之間的互相依賴關系。

position attention module:通過計算所有位置處的權重和捕獲任意兩個位置之間的空間依賴性,二者之間的權重由特征之間相似性決定,無論距離遠近

channel attention module:通過計算所有通道之間的權重和來捕獲通道之間的依賴性關系

最後将兩種注意力機制的結果融合以得到更佳的特征描述。

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

這種注意力機制比前期一些工作具有更好的靈活性,更适合複雜場景的分割。比如在街景分割中,行人路燈等容易受到其他顯著性物體的影響進而降低分割精度,通過将這種不顯著特征集合起來提升其特征顯著性;再者,車體和行人分割往往所需的關注範圍不一樣大小,但在進行分割時無論規模大小都應該賦予相同的注意力,通過我們的自适應注意力機制就可以對同規格的物體均施以同等的重視;最後,通過将空間和通道次元的注意力融合有助于捕獲較長範圍的依賴關系。

本文的工作總結如下:

(1)提出基于自适應注意力機制的DA-Net用以提取更具代表性的特征用于場景分割

(2)position attention module用來學習特征在空間上的依賴關系;channel attention module學習特征在通道次元上的依賴關系。通過擷取局部特征之間的依賴關系可顯著提升分割精度

(3)最終将DA-Net在PASCAL、COCO、Cityspace等benchmark上進行了測試

Section II Related work

語義分割:FCN全卷積神經網絡的提出促進了與一份各領域的發展,相關變體有:DeepLabv2-3引入ASPP,PSPNet引入金字塔池化,基于編解碼的分割架構用于特征融合;還有通過局部特征學習上下文關聯性的DAG-RNN,像素之間關聯性的PSANet,OCNet和EncNet分别引入空間注意力和通道注意力來提升分割精度

自注意力模型:注意力子產品可以更有效的捕獲更大範圍内的互相關聯性,廣泛用于機器翻譯、圖像識别、圖像生成

本文則将注意力機制引入場景分割任務中,設計了兩種注意力子產品捕獲更豐富的上下文關系,進而提升分割精度。

Section III DA-Net

本章介紹DA-Net的整體架構以及兩個注意力模型如何提取特征在空間和通道次元上的特征依賴性,最後介紹如何将二者結合起來。

Part A整體架構

在卷積過程中對一定感受野範圍内進行特征提取,但鑒于分割物體大小不一,還有光照、視角等的差異,使得類内差異較大,一定程度上影響了分割的精度,基于此本文通過注意力機制來擷取全局的上下文資訊,而且本文的注意力機制可以自适應的內建任何尺度範圍的上下文資訊進而提升分割精度。

如Fig2所示,首先輸入圖像經過空洞卷積的resnet獲得局部特征,最後兩個殘差子產品移除了下采樣操作而使用了空洞卷積,獲得原圖1/8大小的feature map

随後将feature map經過一層卷積後送入兩個并行的注意力子產品,從上至下對應是spatial attention module和channel attention module

首先産生捕獲空間依賴性和通道依賴性的feature map.

其次将得到的空間/通道矩陣原輸入圖像相乘在進行element-wise的求和獲得最終的輸出

Part B Position Attention Module

擷取整體的具有辨識性的特征表示有助于圖像分割及場景了解,但一些研究表明使用FCN提取到的一些局部特征經常會導緻誤分類,為了獲得特征之間更豐富的關聯關系,我們設計了空間注意力子產品,增強了特征的表達能力,下面就詳細介紹如何自适應的內建空間中的上下文資訊。

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

将特征圖A 經過卷積後生成BC兩張特征圖譜,次元均為CHW,并進行BC^T産生N*N的輸出,将這一輸出經過softmax後得到空間注意力圖,spatial attention map中每一個值代表任意兩像素之間的相關性,若兩個特征越接近二者相關系數越大,随後将spatial attention map與另一特征圖D矩陣相乘,最終的結果與原圖進行element_wise加和,最終産生的輸出結果代表了空間中任意兩點特征之間的相關性,增強了語義一緻性。

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

可以看出最終輸出E每一點的值均為原始特征每個位置求權重和得到的結果。

Part C Channel Attention Module

高層次特征每一個通道都可認為是對某一類的響應,通過獲得通道之間的相關性擷取的是語義特征之間的聯系。

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

但和spatial attention module的計算過程稍有不同。首先将輸入A的reshape與reshape+transpose的結果進行矩陣相乘得到通道注意力圖X,随後将X的transpose與原輸入A相乘後reshape成A的次元,再與A進行element-wise summation。

這樣擷取通道之間在語義上的互相關聯性來提升特征的表達能力

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion
論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

Part D注意力子產品的嵌入機制*

為了利用較大範圍的上下文資訊,我們将兩個注意力子產品提取到的特征通過一層conv+element-wise summation完成特征融合,最後再經過一次conv完成prediction map的生成。本文沒有使用更占GPU資源的級聯的方式,而且注意力子產品可以直接嵌入到FCN中,在不過多增加參數的情況下提升特征的表達能力。

Section IV Experiments

随後為了驗證DA-Net的有效性,在PASCAL VOC2012,Cityscapes以及COCO資料集上進行了實驗。

資料集:

Cityscapes:來自50城市5000張圖檔,規格2048*1024,共19類,提供小蘇級别标注。劃分:train:val:test = 2979:500:1525

PASCAL VOC 2012:20類前景+1背景類别。train:val:test = 10582:1449:1456

PASCAL Context:對全場景提供語義标簽,60類(59前景+1背景)train:test = 4998:5105

COCO Stuff:171類 train:test = 9000:1000

實驗細節:

使用Pytorch架構,學習率各個資料集看細節,batchsize=8、16

epochs=180、240

Section V 實驗結果分析

Part A 消融實驗

首先為了驗證PAM和CAM的有效性進行了消融實驗,具體實驗設定如Table1,在以ResNet50/101為backbone的實驗中CAM/PAM均有效提升了Mean IoU。

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

可視化的結果也顯示,PAM的引入對一些“電線杆”“人行道”分割效果更好;CAM則提升了對整個物體種類上的分割性能。

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

Part C Attention Map的可視化

每一個像素點都對應H*W的一張sub-attention map。是以實驗挑選每張圖上兩個像素點展示了其各自的sub-attention map。可以看到PAM子產品缺失補貨到了語義之間更相似的部分,而且邊緣分割的更加清晰.

對于channel map不是很好進行可視化,是以挑選了部分通道進行可視化,來看是否高亮了相近語義的部分,比如第11層響應的是“car”這一類别,第4層通道響應的是vegetation這一來别。

是以可以看出 CAM和PAM的加入增強了特征之間的關聯性,善于跨越距離尋找相似語義的部分。

這部分挺有意思的、、

論文閱讀——DA-Net:Dual Attention Network forScene Segmentation摘要Section I IntroductionSection II Related workSection III DA-NetSection IV ExperimentsSection V 實驗結果分析Section VI Conclusion

後面就是依次在前文所介紹的資料集上開展實驗,評價名額選用的Mean IoU,在此不贅述。

Section VI Conclusion

本文提出的雙重注意力網絡(DA-Net)将自适應注意力機制引入分割網絡。通過PAM和CAM兩個注意力子產品的設計,捕獲特征之間的互相關聯性,括約距離增強對相似語義部分的特征學習,進而提升分割性能。在benchmark資料集上均取得了SOTA。

summary:對通道和空間資訊進行了利用,聯想到之前的sqeeze&excitation module,抽時間複習一遍那篇paper。

attention map可視化部分最吸眼球了

繼續閱讀