Exploring Self-attention for Image Recognition
Exploring Self-attention for Image Recognitionarxiv.org
一 文章出發點現在哪哪都用的注意力。
文章認為傳統的卷積可分為,
特征聚集(空間卷積)+特征變化(通道卷積),實際也就是分通道獨立卷積的思想。而且特征聚集中3*3卷積所考慮的空間大小固定,是以作者也提出将傳統卷積解耦,然後将特征聚集的本質了解為:局部區域内的像素特征權重求和。是以
作者提出利用注意力機制自動生成這個權(空間卷積參數),也就是以前的卷積參數,進而實作了增加所考慮的局部區域大小,而又不增加參數的目标。
二 文章怎麼做文章通篇隻有一張圖,如下,也就是文章的基本卷積子產品

為了便于了解,我這裡将它畫成了如下形式。圖中某些箭頭上方的符号都可以簡單了解為一個類似1*1卷積層的操作。
是以文章的核心思想在于:考慮一個像素的局部特征聚集時,應該将注意力放在那些對它影響較大的像素上。是以
根據目前像素與所考慮的局部區域内(文中稱為footprint,大小7*7)
各像素的關系(如下圖所示點積的相似性啊、一範數等等),經1*1卷積得到該區域内各像素特征的注意力權重(如前所述,此時注意力權重有點類似傳統的卷積參數,隻是每次卷積參數不同,是以你會發現傳統的3*3卷積核參數量沒有了,隻剩1*1卷積了,因為現在卷積核全是根據自注意力機制而來,是以卷積大小可以擴大很多)
。以上,作者除上述像素對之間的注意力,還提出了像素塊與像素之間的注意力,感興趣自讀。