天天看點

CVPR2021 | Transformer用于End-to-End視訊執行個體分割

 論文:End-to-End Video Instance Segmentation with Transformers

擷取:在CV技術指南背景回複關鍵字“0005”擷取該論文。

代碼:https://git.io/VisTR

點個關注,專注于計算機視覺技術文章。

前言:

視訊執行個體分割(VIS)是一項需要同時對視訊中感興趣的對象進行分類、分割和跟蹤的任務。本文提出了一種新的基于 Transformers 的視訊執行個體分割架構 VisTR,它将 VIS 任務視為直接的端到端并行序列解碼/預測問題。

給定一個由多個圖像幀組成的視訊片段作為輸入,VisTR 直接輸出視訊中每個執行個體的掩碼序列。它的核心是一種新的、有效的執行個體序列比對和切分政策,在序列層面對執行個體進行整體監控和切分。VisTR從相似性學習的角度對執行個體進行劃分和跟蹤,大大簡化了整個過程,與現有方法有很大不同。

VisTR 在現有的 VIS 模型中速度最快,效果最好的是在 YouTubeVIS 資料集上使用單一模型的方法。這是研究人員首次展示了一種基于 Transformer 的更簡單、更快的視訊執行個體分割架構,實作了具有競争力的準确性。

出發點

SOTA方法通常會開發複雜的pipeline來解決此任務。 Top-down的方法遵循tracking-by-detection範式,嚴重依賴圖像級執行個體分割模型和複雜的人工設計規則來關聯執行個體。 Bottom-up的方法通過對學習的像素嵌入進行聚類來分離對象執行個體。由于嚴重依賴密集預測品質,這些方法通常需要多個步驟來疊代地生成掩碼,這使得它們很慢。是以,非常需要一個簡單的、端到端可訓練的 VIS 架構。

在這裡,我們更深入地了解視訊執行個體分割任務。 視訊幀包含比單個圖像更豐富的資訊,例如運動模式和執行個體的時間一緻性,為執行個體分割和分類提供有用的線索。 同時,更好地學習執行個體特征可以幫助跟蹤執行個體。 本質上,執行個體分割和執行個體跟蹤都與相似性學習有關:執行個體分割是學習像素級的相似性,執行個體跟蹤是學習執行個體之間的相似性。 是以,在單個架構中解決這兩個子任務并互相受益是很自然的。 在這裡,我們的目标是開發這樣一個端到端的 VIS 架構。該架構需要簡單,在沒有花裡胡哨的情況下實作強大的性能。

主要貢獻

  1. 我們提出了一種基于 Transformers 的新視訊執行個體分割架構,稱為 VisTR,它将 VIS 任務視為直接的端到端并行序列解碼/預測問題。該架構與現有方法有很大不同,大大簡化了整個流程。
  2. VisTR從相似度學習的新角度解決了VIS。執行個體分割是學習像素級的相似性,執行個體跟蹤是學習執行個體之間的相似性。是以,在相同的執行個體分割架構中無縫自然地實作了執行個體跟蹤。
  3. VisTR 成功的關鍵是執行個體序列比對和分割的新政策,它是為我們的架構量身定制的。這種精心設計的政策使我們能夠在序列級别作為一個整體來監督和分割執行個體。
  4. VisTR 在 YouTube-VIS 資料集上取得了強勁的成績,在 57.7 FPS 的速度下實作了 38.6% 的 mask mAP,這是使用單一模型的方法中最好和最快的。

Methods

CVPR2021 | Transformer用于End-to-End視訊執行個體分割
CVPR2021 | Transformer用于End-to-End視訊執行個體分割

整個 VisTR 架構如圖 2 所示。它包含四個主要元件:一個用于提取多個幀的緊湊特征表示的 CNN 主幹,一個用于對像素級和執行個體級特征的相似性進行模組化的編碼器-解碼器 Transformer,一個執行個體 用于監督模型的序列比對子產品,以及一個執行個體序列分割子產品。

Transformer Encoder

Transformer 編碼器用于對片段中所有像素級特征之間的相似性進行模組化。 首先,對上述特征圖應用 1×1 卷積,将次元從 C 減少到 d (d < C),進而産生新的特征圖f1。

為了形成可以輸入到 Transformer 編碼器中的剪輯級特征序列,我們将 f1 的空間和時間次元展平為一維,進而得到大小為 d × (T·H·W) 的 2D 特征圖。請注意,時間順序始終與初始輸入的順序一緻。每個編碼器層都有一個标準架構,由一個多頭自注意力子產品和一個全連接配接前饋網絡 (FFN) 組成。

Transformer Decoder

Transformer 解碼器旨在解碼可以表示每幀執行個體的頂部像素特征,稱為執行個體級特征。受 DETR的啟發,我們還引入了固定數量的輸入嵌入來從像素特征中查詢執行個體特征,稱為執行個體查詢。

假設模型每幀解碼 n 個執行個體,那麼對于 T 幀,執行個體查詢數為 N = n · T。執行個體查詢是模型學習的,與像素特征具有相同的次元。以編碼器 E 的輸出和 N 個執行個體查詢 Q 作為輸入,Transformer 解碼器輸出 N 個執行個體特征,在圖 2 中用 O 表示。

整體預測遵循輸入幀順序,不同圖像的執行個體預測順序為相同的。是以,可以通過将相應索引的項直接連結來實作對不同幀中執行個體的跟蹤。

Instance Sequence Matching

解碼器輸出的固定數量的預測序列是亂序的,每幀包含n個執行個體序列。本文與DETR相同,使用匈牙利算法進行比對。

雖然是執行個體分割,但是在目标檢測中需要用到bounding box,友善組合優化計算。通過FFN計算歸一化的bounding box中心、寬度和高度,即全連接配接。

通過softmax計算bounding box的label。最終得到n×T個邊界框。使用上面得到标簽機率分布和邊界框來比對執行個體序列和gournd truth。

CVPR2021 | Transformer用于End-to-End視訊執行個體分割
CVPR2021 | Transformer用于End-to-End視訊執行個體分割

最後計算Hungarian算法的loss,考慮标簽的機率分布和bounding box的位置。損失基本遵循DETR的設計,使用L1損失和IOU損失。以下公式是訓練的損失。它由标簽損失、邊界框和執行個體序列組成。

CVPR2021 | Transformer用于End-to-End視訊執行個體分割
CVPR2021 | Transformer用于End-to-End視訊執行個體分割

Conclusion

CVPR2021 | Transformer用于End-to-End視訊執行個體分割
CVPR2021 | Transformer用于End-to-End視訊執行個體分割

下圖展示了 VisTR 在 YouTube VIS 驗證資料集上的可視化。每行包含從同一視訊中采樣的圖像。VisTR 可以很好地跟蹤和分割具有挑戰性的執行個體,例如:(a) 重疊執行個體,(b) 執行個體之間的相對位置變化,© 由相同類型的相似執行個體引起的混淆,以及 (d) 不同姿勢的執行個體。

CVPR2021 | Transformer用于End-to-End視訊執行個體分割
CVPR2021 | Transformer用于End-to-End視訊執行個體分割

 本文來源于公衆号 CV技術指南 的論文分享系列。

歡迎關注公衆号 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

在公衆号中回複關鍵字 “入門指南“可擷取計算機視覺入門所有必備資料。

CVPR2021 | Transformer用于End-to-End視訊執行個體分割
CVPR2021 | Transformer用于End-to-End視訊執行個體分割

其它文章

ML2021 | PatrickStar:通過基于塊的記憶體管理實作預訓練模型的并行訓練

ICCV2021 | PnP-DETR:用Transformer進行高效的視覺分析

ICCV2021 | 醫學影像等小資料集的非自然圖像領域能否用transformer?

ICCV2021 | Vision Transformer中相對位置編碼的反思與改進

ICCV2021 | TransFER:使用Transformer學習關系感覺的面部表情表征

2021-視訊監控中的多目标跟蹤綜述

統一視角了解目标檢測算法:最新進展分析與總結

全面了解目标檢測中的anchor      |    姿态估計綜述

目标檢測中回歸損失函數總結     |     小目标檢測常用方法總結

視覺Transformer綜述    |    2021年小目标檢測最新研究綜述

Siamese network綜述    |  小目标檢測的一些問題,思路和方案

視訊了解綜述:動作識别、時序動作定位、視訊Embedding

從CVPR 2021的論文看計算機視覺的現狀

ICCV2021 | MicroNet:以極低的 FLOPs 改進圖像識别

ICCV2021 | 重新思考視覺transformers的空間次元

CVPR2021 | TransCenter: transformer用于多目标跟蹤算法

CVPR2021 | 開放世界的目标檢測

CVPR2021 | TimeSformer-視訊了解的時空注意模型

CVPR2021 | 一個高效的金字塔切分注意力子產品PSA

CVPR2021 | 特征金字塔的新方式YOLOF

經典論文系列 | 重新思考在ImageNet上的預訓練

經典論文系列 | Group Normalization & BN的缺陷

經典論文系列 | 目标檢測--CornerNet  & anchor boxes的缺陷

經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法:自适應訓練樣本選擇

CV方向的高效閱讀英文文獻方法總結

CNN可視化技術總結(一)-特征圖可視化

CNN可視化技術總結(二)--卷積核可視化

CNN可視化技術總結(三)--類可視化

CNN可視化技術總結(四)--可視化工具與項目

池化技術總結    |  NMS總結    |  注意力機制總結

特征金字塔總結      |  資料增強方法總結

計算機視覺專業術語總結(一)建構計算機視覺的知識體系

欠拟合與過拟合技術總結    |  損失函數技術總結

CNN可視化技術總結

CNN結構演變總結—經典模型

CNN結構演變總結—輕量化模型

CNN結構演變總結—設計原則

論文創新的常見思路總結

在公衆号《CV技術指南》中回複“技術總結”可擷取以上所有總結系列文章的彙總pdf