天天看點

PVT--無卷積密集預測的多功能backbone

​前言:

卷積神經網絡(CNN)在計算機視覺領域取得了顯著的成功,幾乎成為所有計算機視覺任務中的一種通用和主導方法。

受transformer在自然語言處理(NLP)的成功,許多研究人員正試圖探索transformer的應用,一些工作模型視覺任務作為字典查找問題可學習查詢,并使用transformer decoder作為一個特定任務的頭的CNN主幹,如VGG和ResNet。而一些現有技術已經将注意力子產品納入到CNNs中。

論文:https://arxiv.org/pdf/2102.12122.pdf

代碼:https://github.com/whai362/PVT

關注公衆号CV技術指南,及時擷取更多計算機視覺技術總結文章。

Introduction

論文提出了一種使用transformer模型的無卷積主幹網絡,稱為金字塔視覺transformer (Pyramid Vision Transformer--PVT),它可以在許多下遊任務中作為一個通用的backbone,包括圖像級預測和像素級密集預測。

PVT--無卷積密集預測的多功能backbone

PVT--無卷積密集預測的多功能backbone

 不同架構的比較,其中“Conv”和“TF-E”分别表示卷積和transformer編碼器。

(a) 表明,許多CNN backbones都使用金字塔結構進行密集的預測任務,如目标檢測(DET)、語義和執行個體分割(SEG)。

(b) 表明,最近提出的視覺transformer(ViT)是一種專門為圖像分類(CLS)設計的“柱狀”結構。

(c) 說明,通過結合CNNs的金字塔結構,我們提出了金字塔視覺transformer (PVT),它可以用作許多計算機視覺任務的通用backbone,擴大了ViT的範圍和影響。此外,我們的實驗還表明,PVT可以很容易地與DETR結合,建立一個端到端目标檢測系統,沒有卷積和人工設計的元件,如密集anchor和非極大值抑制(NMS)。

具體而言,如上圖所示,與ViT不同,PVT通過以下方式克服了傳統transformer的困難:

(1)以細粒度的圖像更新檔(即每個更新檔4×4)作為輸入來學習高分辨率表示,這對密集的預測任務至關重要。

(2)在網絡深度增加時減少transformer的序列長度,顯著降低計算消耗。

(3)采用空間減少注意(SRA)層來進一步降低學習高分辨率特征圖的資源成本。

Method

與CNN骨幹網絡類似,所提出的方法有四個階段來生成不同尺度的特征圖。所有的階段都共享一個類似的架構,它由一個更新檔嵌入層和Li transformer編碼器層組成。

PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone

拟建金字塔視覺transformer (PVT)的整體結構。

整個模型分為四個階段,每個階段由一個更新檔嵌入層和一個Li-layer transformer encoder組成。遵循金字塔結構,四個階段的輸出分辨率逐漸從步長4縮小到步長32。

在第一階段,給定大小為H×W×3的輸入圖像,他們首先将其分為(HW)/4²更新檔,每個更新檔的大小為4×4×3。

然後,他們将扁平的更新檔輸入到一個線性投影中,并得到大小為(HW)/4²×C1的嵌入更新檔(embedded patches)。之後,嵌入塊和位置嵌入通過L1層transformer encoder,輸出reshape為特征圖F1,尺寸為H/4×W/4×C1。同樣,使用來自前一階段的特征圖作為輸入,它們獲得以下特征圖F2、F3和F4,其相對于輸入圖像的步進為8、16和32像素。

所提出的方法需要處理高分辨率特征圖,論文提出了一個空間減少注意力(SRA)層來取代編碼器中傳統的多頭注意(MHA)層。

與MHA類似,SRA還接收一個查詢Q、一個關鍵K和一個值V作為輸入,并輸出一個改進的特性。不同的是,我們的SRA将在注意力操作之前減少K和V的空間尺度,這在很大程度上降低了計算/記憶體開銷。

第一階段SRA詳情如下:

PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone

這些是線性投影的參數。N_i是第一階段transformer encoder的編号。是以,每個頭的尺寸等于Ci/Ni。SR(·)是空間縮減操作,其定義為:

PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone

利用特征金字塔{F1、F2、F3、F4},該方法可以很容易地應用于大多數下遊任務,包括圖像分類、目标檢測和語義分割。

結論

總的來說,所提出的PVT具有以下優點。首先,與傳統的CNN backbones相比,感受野在深度增加時會增加,PVT總是産生一個全局感受野,比CNNs的局部感受野更适合于檢測和分割。其次,與ViT相比,由于金字塔結構的進步,所提出的方法更容易插入到許多具有代表性的密集預測pipeline中。第三,利用PVT,我們可以結合PVT與其他為不同任務設計的transformer decoder,建構一個無卷積管道。

實驗提出了第一個端到端目标檢測檢測pipeline,PVT+DETR,它是完全無卷積的。它在2017年COCO上達到34.7,優于基于ResNet50的原始DETR。

原文連結:

https://medium.com/mlearning-ai/pyramid-vision-transformer-a-versatile-backbone-for-dense-prediction-without-convolutions-fe58842d2609

本文來源于公衆号 CV技術指南 的論文分享系列。

​歡迎關注公衆号 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

 在公衆号中回複關鍵字 “技術總結” 可擷取以下文章的彙總pdf。

PVT--無卷積密集預測的多功能backbone
PVT--無卷積密集預測的多功能backbone

其它文章

開放世界的目标檢測

自動駕駛的實時車道檢測和警報

北京大學施柏鑫:從審稿人視角,談談怎麼寫一篇CVPR論文

Siamese network總結

計算機視覺專業術語總結(一)建構計算機視覺的知識體系

欠拟合與過拟合技術總結

歸一化方法總結

論文創新的常見思路總結

CV方向的高效閱讀英文文獻方法總結

計算機視覺中的小樣本學習綜述   

知識蒸餾的簡要概述   

優化OpenCV視訊的讀取速度

NMS總結   

損失函數技術總結

注意力機制技術總結   

特征金字塔技術總結   

池化技術總結

資料增強方法總結   

CNN結構演變總結(一)經典模型

CNN結構演變總結(二)輕量化模型 

CNN結構演變總結(三)設計原則

如何看待計算機視覺未來的走向   

CNN可視化技術總結(一)-特征圖可視化

CNN可視化技術總結(二)-卷積核可視化

CNN可視化技術總結(三)-類可視化

CNN可視化技術總結(四)-可視化工具與項目