天天看點

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

基于注意力的深度神經網絡(DNN)在NLP和CV等不同領域的各種任務上都表現出了卓越的性能。這些進展使得此類網絡(如 Transformer)成為解決多模态問題的有力候選。特别是近一兩年,Transformer 模型已經開始在CV任務上大展手腳,從目辨別别到檢測,效果優于通用的CNN視覺骨幹網絡。

參考視訊對象分割(referring video object segmentation, RVOS)任務涉及到給定視訊幀中文本參考對象執行個體的分割。相比之下,在得到更廣泛研究的參考圖像分割(referring image segmention, RIS)任務中,對象主要通過它們的外觀進行參考。在RVOS中,對象可以通過它們正在執行或參與的動作進行參考。這使得 RVOS比RIS複雜得多,因為參考動作的文本表達通常無法從單個靜态幀中推導出來。

此外,與基于圖像的 RIS 不同,RVOS 方法可能還需要跨多個幀(即跟蹤)來建立參考對象的資料關聯,以處理遮擋或運動模糊這類的幹擾。

為了解決這些挑戰,現有 RVOS 方法往往依賴複雜的 pipeline。在被CVPR 2022接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來自以色列理工學院的研究者提出了一種簡單的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

論文位址:https://arxiv.org/pdf/2111.14821.pdf

項目位址:https://github.com/mttr2021/MTTR

Huggingface Spaces Gradio demo:https://huggingface.co/spaces/akhaliq/MTTR

具體地,他們使用MTTR 将任務模組化成序列預測問題。給定一個視訊和文本查詢,該模型在确定文本參考的對象之前為視訊中所有對象生成預測序列。并且,他們的方法不需要與文本相關的歸納偏置子產品,利用簡單的交叉熵損失對齊視訊和文本。是以,該方法相比以往簡單的多。

研究者提出的pipeline示意圖如下所示。首先使用标準的Transformer文本編碼器從文本查詢中提取語言特征,使用時空編碼器從視訊幀中提取視覺特征。接着将這些特征傳遞給多模态 Transformer 以輸出幾個對象預測序列。然後為了确定哪個預測序列能夠最好地對應參考對象,研究者計算了每個序列的文本參考分數。為此,他們還提出了一種時序分割voting方案,使模型在做出決策時專注于最相關的部分。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

從實驗結果來看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 資料集上分别實作了+5.7和+5.0的mAP增益,同時每秒能夠處理76幀。

研究者還展示了一系列不同對象之間的實際分割效果,如下穿白色T恤和藍色短褲的沖浪者(淡黃色沖浪闆)。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

又如嬉戲玩鬧的大小猩猩。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

網友對這項研究展示的視訊對象分割效果贊不絕口。有人表示,即使在重疊的對象上,分割效果也很有效。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

方法介紹

任務定義。RVOS 的輸入為幀序列

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

,其中

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

;文本查詢為

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

,這裡t_i是文本中的第i個單詞;大小為

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

的感興趣幀的子集為

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

,目标是在每一幀

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

中分割對象

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

特征提取。該研究首先使用深度時空編碼器從序列 V 中的每一幀中提取特征。同時使用基于 Transformer 的文本編碼器從文本查詢 T 中提取語言特征。然後,将空間-時間和語言特征線性投影到共享次元 D。

執行個體預測。之後,感興趣的幀特征被平化(flattened)并與文本嵌入分開連接配接,産生一組T_I多模态序列,這些序列被并行饋送到 Transformer。在 Transformer 的編碼器層中,文本嵌入和每幀的視覺特征交換資訊。然後,解碼器層對每個輸入幀提供N_q對象查詢,查詢與實體相關的多模态序列,并将其存儲在對象查詢中。該研究将這些查詢(在圖 1 和圖 2 中由相同的唯一顔色和形狀表示)稱為屬于同一執行個體序列的查詢。這種設計允許自然跟蹤視訊中的每個對象執行個體。

輸出生成。Transformer 輸出的每個執行個體序列,将會生成一個對應的掩碼序列。為了實作這一點,該研究使用了類似 FPN 的空間解碼器和動态生成的條件卷積核。最後,該研究使用文本參考評分函數(text-reference score function),該函數基于掩碼和文本關聯,以确定哪個對象查詢序列與 T 中描述的對象具有最強的關聯,并将其分割序列作為模型的預測傳回。

時間編碼器。适合 RVOS 任務的時間編碼器應該能夠為視訊中的每個執行個體提取視覺特征(例如,形狀、大小、位置)和動作語義。相比之下,該研究使用端到端方法,不需要任何額外的掩碼細化步驟,并使用單個主幹就可完成。最近,研究者提出了 Video Swin Transformer [27] 作為 Swin Transformer 對視訊領域的泛化。最初的 Swin 在設計時考慮了密集預測(例如分割), Video Swin 在動作識别基準上進行了大量測試。

據了解,該研究是第一個使用Video Swin (稍作修改)進行視訊分割的。與 I3D 不同,Video Swin 僅包含一個時間下采樣層,并且研究者可以輕松修改以輸出每幀特征圖。是以,Video Swin是處理完整的連續視訊幀序列以進行分割的更好選擇。

執行個體分割過程

執行個體分割過程如圖 2 所示。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

首先,給定 F_E,即最後一個 Transformer 編碼器層輸出的更新後的多模态序列,該研究提取每個序列的視訊相關部分(即第一個 H × W token)并重塑為集合

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

。然後,該研究采用時間編碼器的前 n − 1 個塊的輸出

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

,并使用類似 FPN 的 [21] 空間解碼器 G_Seg 将它們與

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

分層融合。這個過程産生了視訊幀的語義豐富、高分辨率的特征圖,表示為 F_Seg。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

接下來,對于 Transformer 解碼器輸出的每個執行個體序列

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

,該研究使用兩層感覺器 G_kernel 生成相應的條件分割核序列。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

最後,通過将每個分割核與其對應的幀特征進行卷積,為

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

生成一系列分割掩碼 M,然後進行雙線性上采樣操作以将掩碼大小調整為真實分辨率

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

實驗

該研究在A2D-Sentences資料集上将MTTR與SOAT方法進行比較。結果如表 1所示,該方法在所有名額上都顯着優于所有現有方法。

例如,該模型比目前SOTA模型提高了 4.3 mAP ,這證明了MTTR能夠生成高品質的掩碼。該研究還注意到,與目前SOTA技術相比,頂級配置(w = 10)的MTTR實作了 5.7 的 mAP 提高和 6.7% 的平均 IoU 和總體 IoU 的絕對改進。值得一提的是,這種配置能夠在單個 RTX 3090 GPU 上每秒處理 76 幀的同時做到這一點。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

按照之前的方法 [11, 24],該研究通過在沒有微調的 JHMDBSentences 上評估模型的泛化能力。該研究從每個視訊中統一采樣三幀,并在這些幀上評估模型。如表2所示,MTTR方法具有很好的泛化性并且優于所有現有方法。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

表3報告了在Refer-YouTube-VOS公共驗證集上的結果。與現有方法[24,37]相比,這些方法是在完整資料集上進行訓練和評估的,盡管該研究模型在較少的資料上進行訓練,并專門在一個更具挑戰性的子集上進行評估,但MTTR在所有名額上都表現出了卓越的性能。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔

如圖 3 所示,MTTR 可以成功地跟蹤和分割文本參考對象,即使在具有挑戰性的情況下,它們被類似執行個體包圍、被遮擋或在視訊的廣泛部分中完全超出相機的視野。

CVPR2022 | 多模态Transformer用于視訊分割效果驚豔