天天看點

【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄

Coordinate Attention for Efficient Mobile Network Design

  • 人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模拟、延伸和擴充人的智能的理論、方法、技術及應用系統的一門新的技術科學,是計算機科學的一個分支。人工智能就是研究如何使計算機去做過去隻有人才能做的智能工作。研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應用計算機的軟硬體來模拟人類某些智能行為的基本理論、方法和技術。該領域的研究包括語音識别、圖像識别、機器人、自然語言處理、智能搜尋和專家系統等。人工智能可以對人的意識、思維的資訊過程的模拟。人工智能不是人的智能,但能像人那樣思考、也有可能超過人的智能。
  • 機器學習是一門多學科交叉專業,涵蓋機率論知識,統計學知識,近似理論知識和複雜算法知識,使用計算機作為工具并緻力于真實實時的模拟人類學習方式,并将現有内容進行知識結構劃分來有效提高學習效率。是研究怎樣使用計算機模拟或實作人類學習活動的科學,是人工智能中最具智能特征,最前沿的研究領域之一。
  • 深度學習是機器學習的一種,而機器學習是實作人工智能的必經路徑。深度學習的概念源于人工神經網絡的研究,含多個隐藏層的多層感覺器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類别或特征,以發現資料的分布式特征表示。研究深度學習的動機在于建立模拟人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋資料,例如圖像,聲音和文本等。
  • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
  • 人工智能加速融合軟硬體協同發展,集合全人類智慧孵化而成
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
  • 國内更有一些研究院促進智能生态建構。商湯(openmmlab),曠世,百度,阿裡,華為等
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄

下面是有關卷積注意力機制的一篇論文閱讀記錄

Abstract

  • 最近關于移動網絡設計的研究已經證明了信道注意力(例如,擠壓和激勵注意力)對于提升模型性能的顯著有效性,但它們通常忽略了位置資訊,這對于生成空間選擇性注意力圖很重要。在本文中,我們通過将位置資訊嵌入到信道注意力中,提出了一種新的移動網絡注意力機制,我們稱之為“協調注意力”。與通過2D全局池将特征張量轉換為單個特征向量的通道注意力不同,坐标注意力将通道注意力分解為兩個1D特征編碼過程,分别沿兩個空間方向聚合特征。以這種方式,可以沿着一個空間方向捕獲長距離依賴性,同時可以沿着另一個空間方位儲存精确的位置資訊。然後将得到的特征圖分别編碼成一對方向感覺和位置敏感的注意力圖,該注意力圖可以互補地應用于輸入特征圖以增強感興趣對象的表示。我們的協調注意力很簡單,可以靈活地插入經典的移動網絡,如MobileNetV2、MobileNeXt和EfficientNet,幾乎沒有計算開銷。大量實驗表明,我們的協調注意力不僅有利于ImageNet分類,更有趣的是,它在下遊任務中表現得更好,例如對象檢測和語義分割。
  • 論文位址:[2103.02907] Coordinate Attention for Efficient Mobile Network Design (arxiv.org)
  • 代碼位于https://github.com/Andrew-Qibin/CoordAttention。
  • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄

Introduction

  • 用于告訴模型“參加什麼”和“在哪裡”的注意力機制已被廣泛研究,并被廣泛用于提高現代深度神經網絡的性能。然而,它們在移動網絡中的應用(模型大小有限)明顯落後于大型網絡。這主要是因為大多數注意力機制帶來的計算開銷對于移動網絡來說是負擔不起的。
  • 考慮到移動網絡的計算能力有限,迄今為止,移動網絡最流行的注意力機制仍然是擠壓和激勵(SE)注意力。它借助2D全局池計算信道注意力,并以相當低的計算成本提供顯著的性能增益。然而,SE的注意力隻考慮對通道間資訊進行編碼,而忽略了位置資訊的重要性,這對于捕獲視覺任務中的對象結構至關重要。後來的工作,如BAM和CBAM,試圖通過減少輸入張量的信道次元,然後使用卷積計算空間注意力,來利用位置資訊,如圖(b)所示。然而,卷積隻能捕獲局部關系,但無法對視覺任務所必需的長期依賴性進行模組化。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
  • 在本文中,除了最初的工作之外,我們通過将位置資訊嵌入到信道注意力中,提出了一種新穎而有效的注意力機制,以使移動網絡能夠在大區域上進行關注,同時避免産生顯著的計算開銷。為了減輕2D全局池化導緻的位置資訊丢失,我們将通道注意力分解為兩個并行的1D特征編碼過程,以有效地将空間坐标資訊內建到生成的注意力圖中。具體地說,我們的方法利用兩個1D全局池操作,将沿垂直和水準方向的輸入特征分别聚合到兩個單獨的方向軟體特征圖中。然後将這兩個具有嵌入方向特定資訊的特征圖分别編碼為兩個關注圖,每個關注圖捕獲輸入特征圖沿一個空間方向的長距離相關性。是以,可以将位置資訊儲存在所生成的關注圖中。然後通過乘法将兩個注意力圖應用于輸入特征圖,以強調感興趣的表示。我們将所提出的注意力方法命名為坐标注意力,因為它的操作區分空間方向(即坐标)并生成坐标感覺注意力圖。
  • 我們的協調關注具有以下優勢。首先,它不僅捕獲跨通道資訊,還捕獲方向感覺和位置敏感資訊,這有助于模型更準确地定位和識别感興趣的對象。其次,我們的方法是靈活和輕量級的,可以很容易地插入移動網絡的經典建構塊,例如MobileNetV2中提出的反向殘差塊和MobileNeXt中提出的沙漏塊,通過強調資訊表示來增強特征。第三,作為一個預訓練的模型,我們的協調注意力可以為移動網絡的下遊任務帶來顯著的性能提升,特别是對于那些具有密集預測(例如,語義分割)的任務,這将在我們的實驗部分中展示。
  • 為了證明所提出的方法相對于移動網絡的先前注意力方法的優勢,我們在ImageNet分類和流行的下遊任務(包括對象檢測和語義分割)中進行了廣泛的實驗。在可學習參數和計算量相當的情況下,我們的網絡在ImageNet上實作了0.8%的性能增益,分類精度位居前1。在對象檢測和語義分割中,與下圖所示的具有其他注意機制的模型相比,我們還觀察到了顯著的改進。我們希望我們簡單高效的設計能夠促進未來移動網絡注意力機制的發展。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 三種經典視覺任務上不同注意力方法的表現。y軸标簽從左到右分别為最高1精度、平均IoU和AP。顯然,我們的方法不僅在ImageNet分類中相對于SE塊和CBAM獲得了最好的結果,而且在下遊任務中表現得更好,如語義分割和COCO對象檢測。結果基于MobileNetV2。
  • 标準卷積本身很難對信道關系模組化。 顯式地建構通道間的依賴關系可以增加模型對資訊通道的敏感性,這些資訊通道對最終分類決策的貢獻更大。 使用全局平均池還可以幫助模型捕獲卷積所缺少的全局資訊。
  • 本文提出Coordinate Attention,CA,可以插入到Mobile Network中,可以使MobileNetV2、EfficientNet等網絡漲點,性能優于SE、CBAM等注意力子產品,同時還可以提高檢測、分割任務的性能

Related Work

  • 在本節中,我們對本文進行了簡要的文獻回顧,包括關于高效網絡架構設計和關注或非本地模型的先前工作。

Mobile Network Architectures

  • 最近最先進的移動網絡主要基于深度可分離卷積和反向殘差塊。HBONet在每個反向殘差塊内引入下采樣操作,用于對代表性空間資訊進行模組化。ShuffleNetV2在反轉殘差塊之前和之後使用信道分割子產品和信道混洗子產品。随後,MobileNetV3與神經架構搜尋算法相結合,以搜尋不同深度處的最優激活函數和反向殘餘塊的擴充比。此外,MixNet、EfficientNet和ProxylessNAS也采用不同的搜尋政策來搜尋深度可分離卷積的最優核心大小或标量,以在擴充比、輸入分辨率、網絡深度和寬度方面控制網絡權重。最近,Zhou等人重新思考了利用深度可分離卷積的方法,并提出了采用移動網絡經典瓶頸結構的MobileNeXt。

Attention Mechanisms

  • 注意力機制已被證明在各種計算機視覺任務中有幫助,例如圖像分類和圖像分割。其中一個成功的例子是SENet,它簡單地壓縮每個2D特征圖,以有效地建立信道之間的互相依賴關系。CBAM通過使用大尺寸核心的卷積引入空間資訊編碼,進一步推進了這一想法。後來的工作,如GENet、GALA、AA和TA,通過采用不同的空間注意力機制或設計進階注意力塊來擴充這一想法。
  • 非本地/自我關注網絡最近非常流行,因為它們能夠建立空間或管道關注。典型的例子包括NLNet、GCNet、A2Net、SCNet、GSoPNet或CCNet,所有這些都利用非本地機制來捕獲不同類型的空間資訊。然而,由于自我關注子產品内的大量計算,它們通常被用于大型模型,但不适用于移動網絡。
  • 與這些利用昂貴且沉重的非局部或自我關注塊的方法不同,我們的方法考慮了捕獲位置資訊和信道關系以增強移動網絡的特征表示的更有效的方式。通過将2D全局池化操作分解為兩個一維編碼過程,我們的方法比具有輕量級特性的其他注意力方法(例如,SENet、CBAM和TA)執行得更好。

Coordinate Attention

  • 坐标注意力塊可以被視為一個計算單元,旨在增強移動網絡的學習特征的表達能力。它可以将任何中間特征張量X=[x1,x2,…,xC]∈RC×H×W作為輸入,并輸出具有與X相同大小的擴充表示Y=[y1,y2,…,yC]的變換張量。為了提供所提出的坐标注意的清晰描述,我們首先重新讨論了SE注意,它在移動網絡中廣泛使用。
  • Revisit Squeeze-and-Excitation Attention
    • 如senet所示,标準卷積本身難以對信道關系進行模組化。顯式地建構信道間依賴關系可以提高模型對資訊信道的敏感性,這些資訊信道對最終分類決策的貢獻更大。此外,使用全局平均池還可以幫助模型捕獲全局資訊,這是一種缺少卷積的方法。
    • 在結構上,SE塊可以分解為兩個步驟:擠壓和激勵,這兩個步驟分别用于全局資訊嵌入和信道關系的自适應重新校準。給定輸入X,第c個通道的擠壓步驟可公式化如下:
      • z c = 1 H ∗ W ∑ i = 1 H ∑ j = 1 W x c i , j , ( 1 ) z_c=\frac{1}{H*W}\sum_{i=1}^H\sum_{j=1}^Wx_c{i,j},(1) zc​=H∗W1​i=1∑H​j=1∑W​xc​i,j,(1)
    • 其中zc是與第c個信道相關聯的輸出。輸入X直接來自具有固定核心大小的卷積層,是以可以被視為局部描述符的集合。擠壓操作使收集全球資訊成為可能。
    • 第二步,激勵,旨在充分捕獲信道依賴性,其可表述為
    • X ^ = X ⋅ σ ( z ) , ( 2 ) \hat{X}=X·σ(z),(2) X^=X⋅σ(z),(2)
    • 其中·表示信道乘法,σ是S形函數,而z是變換函數生成的結果,公式如下:
    • z ^ = T 2 ( R e L U ( T 1 ( z ) ) ) , ( 3 ) \hat{z}=T_2(ReLU(T_1(z))),(3) z^=T2​(ReLU(T1​(z))),(3)
  • 這裡,T1和T2是兩個線性變換,可以學習它們來捕捉每個信道的重要性。
  • SE塊已在最近的移動網絡中廣泛使用,并被證明是實作最先進性能的關鍵元件。然而,它隻考慮通過模組化通道關系來重新衡量每個通道的重要性,而忽略了位置資訊,正如我們将在後文中通過實驗證明的那樣,位置資訊對于生成空間選擇性注意力圖非常重要。在下文中,我們引入了一種新的注意力塊,它同時考慮了通道間關系和位置資訊。

Coordinate Attention Blocks

  • 我們的坐标注意力通過兩個步驟利用精确的位置資訊編碼信道關系和長距離依賴關系:坐标資訊嵌入和坐标注意力生成。拟議坐标關注塊的示意圖可在圖2的右側找到。在下文中,我們将對其進行較長的描述。
  • Coordinate Information Embedding
    • 全局池通常用于通道注意力以對空間資訊進行全局編碼,但它将全局空間資訊壓縮到通道描述符中,是以難以儲存位置資訊,這對于在視覺任務中捕獲空間結構至關重要。為了鼓勵注意力塊利用精确的位置資訊在空間上捕捉長距離的互動,我們将方程中公式化的全局池因子化。(1) 轉換成一對1D特征編碼操作。具體來說,給定輸入X,我們使用兩個空間範圍的池核(H,1)或(1,W)分别沿水準坐标和垂直坐标對每個信道進行編碼。是以,高度h處的第c個通道的輸出可以公式化為
    • z c h h = 1 W ∑ 0 ≤ i ≤ W x c ( h , i ) , ( 4 ) z_c^hh=\frac{1}{W}\sum_{0\leq i\leq W}x_c(h,i),(4) zch​h=W1​0≤i≤W∑​xc​(h,i),(4)
    • 類似地,寬度w處的第c個通道的輸出可以寫為
    • z c w ( w ) = 1 H ∑ 0 ≤ j ≤ H x c ( j , w ) . ( 5 ) z_c^w(w)=\frac{1}{H}\sum_{0\leq j \leq H}x_c(j,w).(5) zcw​(w)=H1​0≤j≤H∑​xc​(j,w).(5)
    • 上述兩個變換分别沿兩個空間方向聚合特征,生成一對方向感覺特征圖。這與産生單個特征向量的通道關注方法中的擠壓操作(等式(1))截然不同。這兩種轉換還允許我們的注意力塊捕獲沿一個空間方向的長距離依賴性,并保留沿另一個空間的精确位置資訊,這有助于網絡更準确地定位感興趣的對象。

Coordinate Attention Generation

  • 如上所述。(4) 和等式(5) 啟用全局感受野并編碼精确的位置資訊。為了利用由此産生的表達表示,我們提出了第二種轉換,稱為坐标注意力生成。我們的設計參考了以下三個标準。首先,對于移動環境中的應用程式,新的轉換應該盡可能簡單和廉價。第二,它可以充分利用捕獲的位置資訊,進而可以精确地突出顯示感興趣的區域。最後但并非最不重要的是,它還應該能夠有效地捕捉管道間關系,這在現有研究中已經證明是至關重要的。
  • 具體而言,給定由等式。4和等式5,我們首先将它們連接配接起來,然後将它們發送到共享的1×1卷積變換函數F1
    • f = θ ( F 1 ( [ z h , z w ] ) ) . ( 6 ) f=\theta(F_1([z^h,z^w])).(6) f=θ(F1​([zh,zw])).(6)
    • 其中[·,·]表示沿空間次元的級聯操作,δ是非線性激活函數,f∈RC/r×(H+W)是在水準方向和垂直方向上編碼空間資訊的中間特征圖。這裡,r是用于如SE塊中那樣控制塊大小的縮小比率。然後我們沿着空間次元将f分割成兩個獨立的張量f h∈RC/r×h和f w∈RC/r×w。另外兩個1×1卷積變換Fh和Fw用于分别将Fh和Fw變換為輸入X具有相同信道号的張量
    • g h = σ ( F h ( f h ) ) , ( 7 ) g w = σ ( F h ( f h ) ) . ( 8 ) g^h=σ(F_h(f^h)),(7)\\ g^w=σ(F_h(f^h)).(8) gh=σ(Fh​(fh)),(7)gw=σ(Fh​(fh)).(8)
    • 其中σ是S形函數。為了降低開銷模型的複雜性,我們通常以适當的減少比率r(例如,32)減少f的信道數。我們将在實驗部分讨論不同減速比對性能的影響。然後,輸出gh和gw被擴充并分别用作注意力權重。最後,坐标關注塊Y的輸出可以寫成
    • y c ( i , j ) = x c ( i , j ) ∗ g c h ( i ) ∗ g c w ( j ) . ( 9 ) y_c(i,j)=x_c(i,j)*g_c^h(i)*g_c^w(j).(9) yc​(i,j)=xc​(i,j)∗gch​(i)∗gcw​(j).(9)
  • 讨論,不同于隻關注重新衡量不同頻道重要性的頻道注意力,我們的坐标注意力塊還考慮對空間資訊進行編碼。如上所述,沿着水準和垂直方向的注意力同時應用于輸入張量。兩個注意力圖中的每個元素都反映了感興趣的對象是否存在于相應的行和列中。這種編碼過程允許我們的坐标注意力更準确地定位感興趣對象的準确位置,進而幫助整個模型更好地識别。我們将在實驗部分詳細說明這一點。

Implementation

  • 由于本文的目标是研究一種更好的方法來增強移動網絡的卷積特征,是以我們在這裡以兩種具有不同類型殘差塊的經典輕量級架構(即MobileNetV2和MobileNeXt)為例,以證明所提出的協調注意力塊相對于其他著名的輕量級注意力塊的優勢。下圖顯示了我們如何将注意力塊插入MobileNetV2中的反向殘差塊和MobileNeXt中的沙漏塊。

Experiments

  • 在本節中,我們首先描述了我們的實驗設定,然後進行了一系列消融實驗,以證明所提出的坐标關注中的每個元件對性能的貢獻。接下來,我們将我們的方法與一些基于注意力的方法進行比較。最後,我們報告了所提出的方法與其他基于注意力的對象檢測和語義分割方法的比較結果。

Experiment Setup

  • 我們使用PyTorch工具箱來實作我們的所有實驗。在訓練期間,我們使用衰減和動量為0.9的标準SGD優化器來訓練所有模型。重量衰減始終設定為4×10−5。采用初始學習率為0.05的餘弦學習計劃。我們使用四個NVIDIA GPU進行訓練,批量大小設定為256。在沒有額外聲明的情況下,我們将MobileNetV2作為基線,并對所有模型進行200個時期的訓練。對于資料擴充,我們使用與MobileNetV2相同的方法。我們報告了ImageNet資料集的分類結果。

Ablation Studies

  • 協調注意力的重要性。為了證明所提出的協調注意力的性能,我們進行了一系列消融實驗,其相應結果均列于下表中。我們從坐标注意力中去除水準注意力或垂直注意力,以了解編碼坐标資訊的重要性。如下表所示,沿任一方向具有注意力的模型與具有SE注意力的模型具有相當的性能。然而,當水準注意力和垂直注意力都結合在一起時,我們獲得了下表中突出顯示的最佳結果。這些實驗表明,在可學習參數和計算成本相當的情況下,坐标資訊嵌入更有助于圖像分類。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 在不同實驗設定下所提出的坐标注意的結果比較。這裡,r是減少比率,基線結果基于MobileNetV2模型。可以看出,添加了水準(X)注意力或垂直(Y)注意力的模型與添加了SE注意力的模型具有相同的性能。然而,當同時考慮水準和垂直注意力(協調注意力)時,我們的方法産生了最好的結果。在Google Pixel 4裝置上測試延遲。
  • 不同的權重乘數。在這裡,我們将兩個經典的移動網絡(包括具有反向殘差塊的MobileNetV2和具有沙漏瓶頸塊的MobileNeXt)作為基線,以檢視所提出的方法在不同權重乘數下與SE注意力和CBAM相比的性能。在本實驗中,我們采用了三個典型的權重乘數,包括{1.0,0.75,0.5}。如下表所示,當以MobileNetV2網絡為基線時,具有CBAM的模型與具有SE注意力的模型具有相似的結果。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 以MobileNetV2為基準,比較不同權重乘數下的不同注意力方法。
  • 然而,具有所建議的坐标注意的模型在每種設定下都會産生最佳結果。當使用MobileNeXt網絡時,也可以觀察到類似的現象,如下表所示。這表明,無論考慮沙漏瓶頸塊或反向殘差塊中的哪一個,無論選擇哪一個權重乘數,我們的坐标注意力都表現最佳,因為同時編碼位置和信道間資訊的先進方式。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 以MobileNeXt為基線時,不同權重乘數下不同注意力方法的比較。
  • 縮減比率r的影響。為了研究注意力塊的不同縮減比率對模型性能的影響,我們試圖減小縮減比率的大小并觀察性能變化。如下表所示,當我們将r減小到原始大小的一半時,模型大小會增加,但可以産生更好的性能。這表明,通過降低減速比增加更多參數對于提高模型性能至關重要。更重要的是,在這個實驗中,我們的坐标注意力仍然比SE注意力和CBAM表現得更好,反映了所提出的坐标注意力對縮減比率的魯棒性。

Comparison with Other Methods

  • 移動網絡注意事項。我們将我們的協調注意力與移動網絡的其他輕量級注意力方法進行了比較,包括廣泛采用的SE注意力和CBAM。可以看出,增加SE的關注已經将分類性能提高了1%以上。對于CBAM,與SE注意力相比,圖(b)所示的空間注意力子產品似乎對移動網絡沒有貢獻。然而,當考慮到建議的協調注意力時,我們會獲得最佳結果。在下圖中,我們還可視化了由具有不同注意力方法的模型生成的特征圖。顯然,我們的協調注意力比SE注意力和CBAM更能幫助定位感興趣的對象
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 最後一個建構塊中具有不同關注方法的模型生成的特征圖的可視化。我們使用Grad CAM作為可視化工具。每個關注塊之前和之後的兩個特征圖都是可視化的。很明顯,我們的協調注意力(CA)可以比其他注意力方法更精确地定位感興趣的對象。
  • 我們認為,與CBAM相比,所提出的位置資訊編碼方式的優點有兩方面。首先,CBAM中的空間注意力子產品将通道次元壓縮為1,導緻資訊丢失。然而,我們的協調注意力使用适當的減少比率來減少瓶頸中的信道次元,避免了過多的資訊丢失。第二,CBAM利用核大小為7×7的卷積層來編碼局部空間資訊,而我們的坐标注意力通過使用兩個互補的1D全局池操作來編碼全局資訊。這使我們能夠協調注意力,以捕捉空間位置之間的長期依賴關系,這對視覺任務至關重要。
  • 更強的基線。為了進一步證明在更強大的移動網絡中,所提出的協調注意力相對于SE注意力的優勢,我們在此将EfficientNet-b0作為我們的基線。EfficientNet基于架構搜尋算法。并且包含SE注意。為了研究所提出的協調注意在EfficientNet上的性能,我們簡單地用所提出的坐标注意替換SE注意。對于其他設定,我們遵循原始檔案。結果列于下表中。與包含SE注意力的原始EfficientNet-b0以及其他具有與EfficientNet-b0類似的參數和計算的方法相比,我們的具有協調注意力的網絡實作了最佳結果。這表明,所提出的協調注意力仍然可以在強大的移動網絡中表現良好。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • 以強大的EfficientNet-b0為基線時的實驗結果。我們還與具有與EfficientNet-b0類似的參數和計算的其他方法進行了比較。

Applications

  • 在本小節中,我們對對象檢測任務和語義分割任務進行了實驗,以探索所提出的協調注意力相對于其他注意力方法的可轉移能力。
  • Object Detection
  • 實施細節。我們的代碼基于PyTorch和SSDLite。在之後,我們将SSDLite的第一層和第二層連接配接到輸出步長分别為16和32的最後一個逐點卷積,并将剩餘的SSDLite層添加到最後一個卷積層的頂部。在COCO上進行訓練時,我們将批大小設定為256,并使用同步批規範化。餘弦學習計劃以0.01的初始學習率使用。我們對模型進行了總共1600000次疊代的訓練。當在Pascal VOC上進行訓練時,批量大小設定為24,所有模型都進行了240000次疊代的訓練。權重衰減設定為0.9。初始學習率為0.001,然後在160000次疊代時除以10,在200000次疊代時再次除以10。
  • COCO結果。在本實驗中,我們遵循了之前的大多數工作,并分别報告了AP、AP50、AP75、APS、APM和APL的結果。在下表中,我們顯示了COCO 2017驗證集上不同網絡設定産生的結果。很明顯,在MobileNetV2中添加坐标關注顯著改善了檢測結果(24.5 v.s.22.3),僅需0.5M個參數開銷和幾乎相同的計算成本。與其他輕量級注意力方法(如SE注意力和CBAM)相比,我們版本的SSDLite320在所有名額中以幾乎相同數量的參數和計算獲得最佳結果。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • COCO驗證集上的對象檢測結果。在這裡的所有實驗中,我們使用SSDLite320檢測器。如圖所示,在我們的坐标關注下,主幹模型在各種測量名額方面都取得了最佳結果。注意,所有結果均基于單模型測試。除了人工設計的移動網絡,我們還展示了基于架構搜尋的方法(即MobileNetV3和MnasNet-A1)産生的結果。
  • 此外,我們還顯示了基于SSDLite320的先前最先進模型産生的結果,如上表所示。注意,一些方法(例如MobileNetV3和MnasNet-A1)基于神經架構搜尋方法,但我們的模型沒有。顯然,與具有相近參數和計算的其他方法相比,我們的檢測模型在AP方面取得了最佳結果。
  • Pascal VOC結果。在下表中,我們顯示了采用不同注意方法時Pascal VOC 2007測試集的檢測結果。我們觀察到SE注意力和CBAM不能改善基線結果。然而,增加建議的坐标關注度可以在很大程度上将平均AP從71.7提高到73.1。在COCO和Pascal VOC資料集上的檢測實驗表明,與其他注意力方法相比,具有所提出的坐标注意力的分類模型具有更好的可轉移能力。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • Pascal VOC 2007測試集的對象檢測結果。我們可以觀察到,當采用相同的SSDLite320檢測器時,添加了我們的坐标注意力的MobileNetV2網絡在mAP方面取得了更好的結果
  • Semantic Segmentation
    • 我們還進行了語義分割實驗。在MobileNetV2之後,我們利用經典的DeepLabV3作為示例,并将所提出的方法與其他模型進行比較,以證明所提出的坐标注意力在語義分割中的可轉移能力。具體來說,我們丢棄最後一個線性算子,并将ASPP連接配接到最後一個卷積算子。我們用ASPP中的深度可分離卷積代替标準的3×3卷積算子,以減少考慮移動應用的模型大小。ASPP中每個分支的輸出通道設定為256,ASPP中的其他元件保持不變(包括1×1卷積分支和圖像級特征編碼分支)。我們報告了兩個廣泛使用的語義分割基準的結果,包括Pascal VOC 2012[9]和Cityscapes。對于實驗設定,除了權重衰減設定為4e-5之外,我們嚴格遵循DeepalabV3論文。當輸出步幅設定為16時,ASPP中的擴張率為{6,12,18},而當輸出步距設定為8時,則為{12,24,36}。
    • Pascal VOC 2012結果。Pascal VOC 2012細分基準共有21個類,包括一個背景類。如原論文所建議的,我們使用1464張圖像的分割進行訓練,使用1449張圖像的分裂進行驗證。此外,正如在大多數以前的工作中所做的那樣,我們通過添加中的額外圖像來增強訓練集,進而得到總共10582幅圖像用于訓練。
    • 我們将不同模型作為主幹時的分割結果顯示在下表中。我們報告了兩種不同輸出步長下的結果,即16和8。注意,這裡報告的所有結果都不是基于COCO預訓練。根據下表,配備了我們的協調注意力的模型比普通的MobileNetV2和其他注意力方法的表現要好得多。
    • 【讀點論文】Coordinate Attention for Efficient Mobile Network Design.2021CVPR卷積注意力機制新發現(含openmmlab的深度學習概覽)Coordinate Attention for Efficient Mobile Network Design下面是有關卷積注意力機制的一篇論文閱讀記錄
    • Pascal VOC 2012驗證集的語義分割結果。所有結果均基于單模型測試,未使用後處理工具。我們可以看到,配備了所有注意力方法的模型改善了分割結果。然而,當使用提出的協調注意力時,我們獲得了最好的結果,這比使用其他注意力方法的模型要好得多此處的“步長”表示分割網絡的輸出步長。
    • Cityscapes上的結果。Cityscapes是最流行的城市街道場景分割資料集之一,共包含19個不同的類别。根據官方建議,我們使用2975張圖像進行訓練,500張圖像進行驗證。隻有精細注釋的圖像用于訓練。在訓練中,我們将原始圖像随機裁剪為768×768。在測試期間,所有圖像都保持原始尺寸(1024×2048)。
    • 在下表中,我們展示了在Cityscapes資料集上使用不同關注方法的模型産生的分割結果。與普通的MobileNetV2和其他注意力方法相比,我們的協調注意力可以在可學習參數數量相當的情況下大幅提高分割結果。
  • 讨論:我們觀察到,與ImageNet分類和對象檢測相比,我們的坐标注意力在語義分割方面産生了更大的改進。我們認為,這是因為我們的協調注意力能夠利用精确的位置資訊捕獲長距離依賴,這對于具有密集預測的視覺任務(如語義分割)更有利。

Conclusions

  • 在本文中,我們提出了一種用于移動網絡的輕量級注意力機制,稱為協調注意力。我們的協調注意力繼承了管道注意力方法(如擠壓和激發注意力)的優勢,該方法對管道間關系進行模組化,同時利用精确的位置資訊捕獲長期依賴性。ImageNet分類、對象檢測和語義分割的實驗證明了我們協調注意力的有效性。

    産生了更大的改進。我們認為,這是因為我們的協調注意力能夠利用精确的位置資訊捕獲長距離依賴,這對于具有密集預測的視覺任務(如語義分割)更有利。

Conclusions

  • 在本文中,我們提出了一種用于移動網絡的輕量級注意力機制,稱為協調注意力。我們的協調注意力繼承了管道注意力方法(如擠壓和激發注意力)的優勢,該方法對管道間關系進行模組化,同時利用精确的位置資訊捕獲長期依賴性。ImageNet分類、對象檢測和語義分割的實驗證明了我們協調注意力的有效性。

繼續閱讀