天天看點

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

Dual Attention Network for Scene Segmentation論文閱讀&翻譯

  • 論文位址
  • Abstract
  • Introduction
  • Dual Attention Network
    • Overview
    • Position Attention Module
    • Channel Attention Module
      • Attention Module Embedding with Networks
  • Experiments
    • PASCAL VOC
    • PASCAL Context
    • COCO Stuff

論文位址

論文連結:

https://arxiv.org/pdf/1809.02983.pdf.

源碼連接配接:

https://github.com/junfu1115/DANet/.

Abstract

作者提出了DANet,使用全局依賴去自适應的整合局部特征。具體來說,是在帶有空洞的FCN之上附加了兩種類型的注意力子產品,分别對空間和通道次元上的語義依賴性進行模組化。位置注意子產品通過所有位置上的特征的權重總和選擇性地聚合每個位置上的特征。相似的特征不依賴于距離去建立聯系。同時,通道注意力子產品通過在所有通道圖整合有關聯的特征來有選擇的突出互相預存的特征圖。之後對兩個注意力子產品的輸出求和,以進一步改善特征表示,這有助于更精确的分割結果。

Introduction

在像素級識别中,增強特征的辨識能力是必不可少的。進來基于FCN的方法也試圖解決這個問題,一種方法是多尺度上下文融合,比如空洞卷積和池化,使用分解結構擴大核心大小或在網絡之上引入有效的編碼層,編解碼結構等。另一種方法是采用循環神經網絡來利用遠端依賴性。

為了解決問題,作者提出了DANet,它引入了一種自注意力機制,以分别捕獲空間和通道次元中的特征依賴關系。具體來說,在空洞FCN頂部附加兩個并行注意力子產品。一個是位置注意力子產品,另一個是通道注意力子產品。對于位置注意力子產品,引入了自注意機制來捕獲特征圖的任意兩個位置之間的空間依賴性。 對于特定位置的特征,将通過在所有位置上的權重總和對特征進行更新,其中權重由相應兩個位置之間的特征相似性決定。 即具有相似特征的任何兩個位置都可以互相促進,而無論它們在空間次元上的距離如何。對于通道注意力子產品,使用類似的自關注機制來捕獲任意兩個通道映射之間的依賴關系,并使用所有通道圖的權重和更新每個通道圖。 最後,将這兩個注意力子產品的輸出融合在一起,以進一步增強特征表示。

Dual Attention Network

Overview

給定場景分割的圖檔,東西或物體在比例,照明和視圖上各不相同。 由于卷積運算将導緻局部接收場,是以與具有相同标簽的像素對應的特征可能會有一些差異。這些差異會導緻類内不一緻并影響識别準确性。 為了解決此問題,作者建立具有注意機制的特征圖之間的關聯來獲得全局上下文資訊。此方法可以自适應地聚合遠端上下文資訊,進而改善場景分割的特征表示。

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

總體結構如上圖,使用一個帶有空洞的預訓練的殘差網絡作為骨幹。作者删除了下采樣操作,并在最後兩個ResNet塊中使用了空洞卷積,進而将最終特征圖的大小擴大到輸入圖像的1/8。它保留了更多細節,而無需添加額外的參數。 然後,計算出來的特征特征将送入兩個并行注意子產品中。 以空間注意力子產品為例,首先應用卷積層以獲得次元減少了的特征。然後,我們将這些特征輸入到位置注意子產品中,并通過以下三個步驟生成空間遠端上下文資訊的新特征。第一步是生成一個空間注意矩陣,該矩陣對特征的任意兩個像素之間的空間關系進行模組化。接下來,我們在注意力矩陣和原始特征之間執行矩陣乘法。第三,我們對上面相乘的結果矩陣和原始特征執行逐元素求和運算,以獲得反映遠端上下文的最終表示。同時,通道注意力子產品會捕獲通道次元中的遠端上下文資訊。捕獲通道關系的過程與位置注意力子產品相似,但第一步是在通道次元中計算通道注意力矩陣。 最後,彙總兩個注意力子產品的輸出,以獲得更好的特征表示,以進行像素級預測。

Position Attention Module

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

如上圖,給出局部特征 A ∈ R C × H × W A\in R^{C \times H\times W} A∈RC×H×W,首先将其送入卷積層以生成兩個新的特征圖 B B B和 C C C, { B , C } ∈ R C × H × W \{B,C\}\in R^{C \times H\times W} {B,C}∈RC×H×W,然後reshape到 R C × N , N = H × W R^{C \times N},N=H\times W RC×N,N=H×W,之後,在 C C C和 B B B的轉置之間執行矩陣乘法,并應用softmax層來計算空間注意圖 S ∈ R N × N S\in R^{N\times N} S∈RN×N,

s j i = e x p ( B i ⋅ C j ) ∑ i = 1 N ( B i ⋅ c j ) s_{ji}=\frac{exp(B_i \cdot C_j)}{\sum_{i=1}^N(B_i\cdot c_j)} sji​=∑i=1N​(Bi​⋅cj​)exp(Bi​⋅Cj​)​

其中 s j i s_{ji} sji​表示第 i i i個位置在第 j j j個位置上的影響,兩個位置的特征表示越相似,它們之間的相關性就越高。同時,将特征 A A A送入卷積層以生成新的特征圖 D ∈ R C × H × W D\in R^{C×H×W} D∈RC×H×W并将其reshape為 R C × N R^{C×N} RC×N。 然後,在 D D D和 S S S的轉置之間執行矩陣乘法,并将結果reshape為 R C × H × W R^{C×H×W} RC×H×W。最後,我們将其乘以比例參數α并使用特征 A A A進行元素求和運算,以獲得最終輸出 E ∈ R C × H × W E\in R^{C×H×W} E∈RC×H×W如下:

E j = α ∑ i = 1 N ( s j i D i ) + A j E_j = \alpha \sum^N_{i=1}(s_{ji}D_i)+A_j Ej​=αi=1∑N​(sji​Di​)+Aj​

其中α初始化為0,并逐漸學會配置設定更多權重。每個位置處的結果特征 E E E是所有位置處的特征與原始特征的權重和。是以,它具有全局上下文視圖,并根據空間注意力圖選擇性地聚合上下文。

Channel Attention Module

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

與位置注意力子產品不同,直接從原始特征 A ∈ R C × H × W A\in R^{C×H×W} A∈RC×H×W計算出頻道注意圖 X ∈ R C × C X\in R^{C\times C} X∈RC×C,具體來說,将 A A A reshape為 R C × N R^{C×N} RC×N,然後在A與A的轉置之間執行矩陣乘法,最後,應用softmax層以獲得通道關注圖 X ∈ R C × C X\in R^{C\times C} X∈RC×C:

x j i = e x p ( A i ⋅ A j ) ∑ i = 1 C e x p ( A i ⋅ A j ) x_{ji}=\frac{exp(A_i\cdot A_j)}{\sum_{i=1}^Cexp(A_i\cdot A_j)} xji​=∑i=1C​exp(Ai​⋅Aj​)exp(Ai​⋅Aj​)​,其中 x j i x_{ji} xji​表示第 i i i個通道在第 j j j個通道上的影響。此外,在 X X X和 A A A的轉置之間執行矩陣乘法,并将其結果reshape為 R C × H × W R^{C\times H \times W} RC×H×W,然後,将結果與比例參數β相乘,并對 A A A進行逐元素求和運算,以獲得最終輸出 E ∈ R C × H × W E\in R^{C×H×W} E∈RC×H×W

E j = β ∑ i = 1 C ( x j i D A i ) + A j E_j = \beta \sum^C_{i=1}(x_{ji}DA_i)+A_j Ej​=βi=1∑C​(xji​DAi​)+Aj​

其中β逐漸從0開始學習權重。上式表明,每個通道的最終特征是所有通道的特征與原始特征的權重和,該特征對特征圖之間的長期語義依賴性進行模組化。它有助于增強功能的可分辨性

Attention Module Embedding with Networks

為了充分利用遠端上下文資訊,最後需要彙總了這兩個注意力子產品的結果。 具體來說,通過卷積層轉換兩個注意力子產品的輸出,并執行逐元素求和以完成特征融合。 最後是一個卷積層,以生成最終的預測結果。 這個注意力子產品很簡單,可以直接插入現有的FCN方法中。 它們不會增加太多參數,但可以有效地增強特征表示。

Experiments

PASCAL VOC

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

PASCAL Context

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

COCO Stuff

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments