前言：

卷積神經網絡(CNN)在計算機視覺領域取得了顯著的成功，幾乎成為所有計算機視覺任務中的一種通用和主導方法。

受transformer在自然語言處理(NLP)的成功，許多研究人員正試圖探索transformer的應用，一些工作模型視覺任務作為字典查找問題可學習查詢，并使用transformer decoder作為一個特定任務的頭的CNN主幹，如VGG和ResNet。而一些現有技術已經将注意力子產品納入到CNNs中。

論文：https://arxiv.org/pdf/2102.12122.pdf

代碼：https://github.com/whai362/PVT

關注公衆号CV技術指南，及時擷取更多計算機視覺技術總結文章。

Introduction

論文提出了一種使用transformer模型的無卷積主幹網絡，稱為金字塔視覺transformer (Pyramid Vision Transformer--PVT)，它可以在許多下遊任務中作為一個通用的backbone，包括圖像級預測和像素級密集預測。

PVT--無卷積密集預測的多功能backbone

不同架構的比較，其中“Conv”和“TF-E”分别表示卷積和transformer編碼器。

(a) 表明，許多CNN backbones都使用金字塔結構進行密集的預測任務，如目标檢測(DET)、語義和執行個體分割(SEG)。

(b) 表明，最近提出的視覺transformer（ViT)是一種專門為圖像分類(CLS)設計的“柱狀”結構。

(c) 說明，通過結合CNNs的金字塔結構，我們提出了金字塔視覺transformer (PVT)，它可以用作許多計算機視覺任務的通用backbone，擴大了ViT的範圍和影響。此外，我們的實驗還表明，PVT可以很容易地與DETR結合，建立一個端到端目标檢測系統，沒有卷積和人工設計的元件，如密集anchor和非極大值抑制(NMS)。

具體而言，如上圖所示，與ViT不同，PVT通過以下方式克服了傳統transformer的困難：

（1）以細粒度的圖像更新檔(即每個更新檔4×4)作為輸入來學習高分辨率表示，這對密集的預測任務至關重要。

（2）在網絡深度增加時減少transformer的序列長度，顯著降低計算消耗。

（3）采用空間減少注意(SRA)層來進一步降低學習高分辨率特征圖的資源成本。

Method

與CNN骨幹網絡類似，所提出的方法有四個階段來生成不同尺度的特征圖。所有的階段都共享一個類似的架構，它由一個更新檔嵌入層和Li transformer編碼器層組成。

PVT--無卷積密集預測的多功能backbone

拟建金字塔視覺transformer (PVT)的整體結構。

整個模型分為四個階段，每個階段由一個更新檔嵌入層和一個Li-layer transformer encoder組成。遵循金字塔結構，四個階段的輸出分辨率逐漸從步長4縮小到步長32。

在第一階段，給定大小為H×W×3的輸入圖像，他們首先将其分為(HW)/4²更新檔，每個更新檔的大小為4×4×3。

然後，他們将扁平的更新檔輸入到一個線性投影中，并得到大小為(HW)/4²×C1的嵌入更新檔（embedded patches）。之後，嵌入塊和位置嵌入通過L1層transformer encoder，輸出reshape為特征圖F1，尺寸為H/4×W/4×C1。同樣，使用來自前一階段的特征圖作為輸入，它們獲得以下特征圖F2、F3和F4，其相對于輸入圖像的步進為8、16和32像素。

所提出的方法需要處理高分辨率特征圖，論文提出了一個空間減少注意力(SRA)層來取代編碼器中傳統的多頭注意(MHA)層。

與MHA類似，SRA還接收一個查詢Q、一個關鍵K和一個值V作為輸入，并輸出一個改進的特性。不同的是，我們的SRA将在注意力操作之前減少K和V的空間尺度，這在很大程度上降低了計算/記憶體開銷。

第一階段SRA詳情如下：

PVT--無卷積密集預測的多功能backbone

這些是線性投影的參數。N_i是第一階段transformer encoder的編号。是以，每個頭的尺寸等于Ci/Ni。SR(·)是空間縮減操作，其定義為：

PVT--無卷積密集預測的多功能backbone

利用特征金字塔{F1、F2、F3、F4}，該方法可以很容易地應用于大多數下遊任務，包括圖像分類、目标檢測和語義分割。

結論

總的來說，所提出的PVT具有以下優點。首先，與傳統的CNN backbones相比，感受野在深度增加時會增加，PVT總是産生一個全局感受野，比CNNs的局部感受野更适合于檢測和分割。其次，與ViT相比，由于金字塔結構的進步，所提出的方法更容易插入到許多具有代表性的密集預測pipeline中。第三，利用PVT，我們可以結合PVT與其他為不同任務設計的transformer decoder，建構一個無卷積管道。

實驗提出了第一個端到端目标檢測檢測pipeline，PVT+DETR，它是完全無卷積的。它在2017年COCO上達到34.7，優于基于ResNet50的原始DETR。

原文連結：

https://medium.com/mlearning-ai/pyramid-vision-transformer-a-versatile-backbone-for-dense-prediction-without-convolutions-fe58842d2609

本文來源于公衆号 CV技術指南的論文分享系列。

歡迎關注公衆号 CV技術指南，專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

在公衆号中回複關鍵字 “技術總結” 可擷取以下文章的彙總pdf。

PVT--無卷積密集預測的多功能backbone

PVT--無卷積密集預測的多功能backbone

其它文章

開放世界的目标檢測

自動駕駛的實時車道檢測和警報

北京大學施柏鑫：從審稿人視角，談談怎麼寫一篇CVPR論文

Siamese network總結

計算機視覺專業術語總結(一)建構計算機視覺的知識體系

欠拟合與過拟合技術總結

歸一化方法總結

論文創新的常見思路總結

CV方向的高效閱讀英文文獻方法總結

計算機視覺中的小樣本學習綜述

知識蒸餾的簡要概述

優化OpenCV視訊的讀取速度

NMS總結

損失函數技術總結

注意力機制技術總結

特征金字塔技術總結

池化技術總結

資料增強方法總結

CNN結構演變總結（一）經典模型

CNN結構演變總結（二）輕量化模型

CNN結構演變總結（三）設計原則

如何看待計算機視覺未來的走向

CNN可視化技術總結（一）-特征圖可視化

CNN可視化技術總結（二）-卷積核可視化

CNN可視化技術總結（三）-類可視化

CNN可視化技術總結（四）-可視化工具與項目

PVT--無卷積密集預測的多功能backbone

Introduction

Method

結論

PVT--無卷積密集預測的多功能backbone

PVT--無卷積密集預測的多功能backbone

其它文章

繼續閱讀

使用Dice loss實作清晰的邊界檢測

語義分割綜述

MobileNet系列之MobileNet_v3

MobileNet系列之MobileNet_v2

CVPR2021 | 開放世界的目标檢測

使用深度神經網絡為什麼8位足夠？

為什麼GEMM是深度學習的核心

ICCV2021 | PnP-DETR：用Transformer進行高效的視覺分析

ICCV2021 | TransFER：使用Transformer學習關系感覺的面部表情表征

2021-視訊監控中的多目标跟蹤綜述

使用 PyTorch Lightning 将深度學習管道速度提高 10 倍

CVPR2021提出的一些新資料集彙總

CVPR2021 | SETR: 使用 Transformer 從序列到序列的角度重新思考語義分割

經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法：自适應訓練樣本選擇

計算機視覺--CV技術指南文章彙總

PVT--無卷積密集預測的多功能backbone

Introduction

Method

結論

PVT--無卷積密集預測的多功能backbone PVT--無卷積密集預測的多功能backbone

其它文章

繼續閱讀

PVT--無卷積密集預測的多功能backbone

PVT--無卷積密集預測的多功能backbone