前言:
卷積神經網絡(CNN)在計算機視覺領域取得了顯著的成功,幾乎成為所有計算機視覺任務中的一種通用和主導方法。
受transformer在自然語言處理(NLP)的成功,許多研究人員正試圖探索transformer的應用,一些工作模型視覺任務作為字典查找問題可學習查詢,并使用transformer decoder作為一個特定任務的頭的CNN主幹,如VGG和ResNet。而一些現有技術已經将注意力子產品納入到CNNs中。
論文:https://arxiv.org/pdf/2102.12122.pdf
代碼:https://github.com/whai362/PVT
關注公衆号CV技術指南,及時擷取更多計算機視覺技術總結文章。
Introduction
論文提出了一種使用transformer模型的無卷積主幹網絡,稱為金字塔視覺transformer (Pyramid Vision Transformer--PVT),它可以在許多下遊任務中作為一個通用的backbone,包括圖像級預測和像素級密集預測。

不同架構的比較,其中“Conv”和“TF-E”分别表示卷積和transformer編碼器。
(a) 表明,許多CNN backbones都使用金字塔結構進行密集的預測任務,如目标檢測(DET)、語義和執行個體分割(SEG)。
(b) 表明,最近提出的視覺transformer(ViT)是一種專門為圖像分類(CLS)設計的“柱狀”結構。
(c) 說明,通過結合CNNs的金字塔結構,我們提出了金字塔視覺transformer (PVT),它可以用作許多計算機視覺任務的通用backbone,擴大了ViT的範圍和影響。此外,我們的實驗還表明,PVT可以很容易地與DETR結合,建立一個端到端目标檢測系統,沒有卷積和人工設計的元件,如密集anchor和非極大值抑制(NMS)。
具體而言,如上圖所示,與ViT不同,PVT通過以下方式克服了傳統transformer的困難:
(1)以細粒度的圖像更新檔(即每個更新檔4×4)作為輸入來學習高分辨率表示,這對密集的預測任務至關重要。
(2)在網絡深度增加時減少transformer的序列長度,顯著降低計算消耗。
(3)采用空間減少注意(SRA)層來進一步降低學習高分辨率特征圖的資源成本。
Method
與CNN骨幹網絡類似,所提出的方法有四個階段來生成不同尺度的特征圖。所有的階段都共享一個類似的架構,它由一個更新檔嵌入層和Li transformer編碼器層組成。
拟建金字塔視覺transformer (PVT)的整體結構。
整個模型分為四個階段,每個階段由一個更新檔嵌入層和一個Li-layer transformer encoder組成。遵循金字塔結構,四個階段的輸出分辨率逐漸從步長4縮小到步長32。
在第一階段,給定大小為H×W×3的輸入圖像,他們首先将其分為(HW)/4²更新檔,每個更新檔的大小為4×4×3。
然後,他們将扁平的更新檔輸入到一個線性投影中,并得到大小為(HW)/4²×C1的嵌入更新檔(embedded patches)。之後,嵌入塊和位置嵌入通過L1層transformer encoder,輸出reshape為特征圖F1,尺寸為H/4×W/4×C1。同樣,使用來自前一階段的特征圖作為輸入,它們獲得以下特征圖F2、F3和F4,其相對于輸入圖像的步進為8、16和32像素。
所提出的方法需要處理高分辨率特征圖,論文提出了一個空間減少注意力(SRA)層來取代編碼器中傳統的多頭注意(MHA)層。
與MHA類似,SRA還接收一個查詢Q、一個關鍵K和一個值V作為輸入,并輸出一個改進的特性。不同的是,我們的SRA将在注意力操作之前減少K和V的空間尺度,這在很大程度上降低了計算/記憶體開銷。
第一階段SRA詳情如下:
這些是線性投影的參數。N_i是第一階段transformer encoder的編号。是以,每個頭的尺寸等于Ci/Ni。SR(·)是空間縮減操作,其定義為:
利用特征金字塔{F1、F2、F3、F4},該方法可以很容易地應用于大多數下遊任務,包括圖像分類、目标檢測和語義分割。
結論
總的來說,所提出的PVT具有以下優點。首先,與傳統的CNN backbones相比,感受野在深度增加時會增加,PVT總是産生一個全局感受野,比CNNs的局部感受野更适合于檢測和分割。其次,與ViT相比,由于金字塔結構的進步,所提出的方法更容易插入到許多具有代表性的密集預測pipeline中。第三,利用PVT,我們可以結合PVT與其他為不同任務設計的transformer decoder,建構一個無卷積管道。
實驗提出了第一個端到端目标檢測檢測pipeline,PVT+DETR,它是完全無卷積的。它在2017年COCO上達到34.7,優于基于ResNet50的原始DETR。
原文連結:
https://medium.com/mlearning-ai/pyramid-vision-transformer-a-versatile-backbone-for-dense-prediction-without-convolutions-fe58842d2609
本文來源于公衆号 CV技術指南 的論文分享系列。
歡迎關注公衆号 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。
在公衆号中回複關鍵字 “技術總結” 可擷取以下文章的彙總pdf。
PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone
其它文章
開放世界的目标檢測
自動駕駛的實時車道檢測和警報
北京大學施柏鑫:從審稿人視角,談談怎麼寫一篇CVPR論文
Siamese network總結
計算機視覺專業術語總結(一)建構計算機視覺的知識體系
欠拟合與過拟合技術總結
歸一化方法總結
論文創新的常見思路總結
CV方向的高效閱讀英文文獻方法總結
計算機視覺中的小樣本學習綜述
知識蒸餾的簡要概述
優化OpenCV視訊的讀取速度
NMS總結
損失函數技術總結
注意力機制技術總結
特征金字塔技術總結
池化技術總結
資料增強方法總結
CNN結構演變總結(一)經典模型
CNN結構演變總結(二)輕量化模型
CNN結構演變總結(三)設計原則
如何看待計算機視覺未來的走向
CNN可視化技術總結(一)-特征圖可視化
CNN可視化技術總結(二)-卷積核可視化
CNN可視化技術總結(三)-類可視化
CNN可視化技術總結(四)-可視化工具與項目