天天看點

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

原文連結:https://www.techbeat.net/article-info?id=4467

作者:seven_

視訊字幕生成目前已成為工業界AI創作領域非常火熱的研究話題,這一技術可以應用在短視訊的内容解析和講解中,AI講故事的技術已經越來越成熟。而在學術界,研究者們更加傾向于探索字幕生成的評價标準以及可擴充性。

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

論文連結:

https://arxiv.org/abs/2211.15103

代碼連結:

https://github.com/UARK-AICV/VLTinT

本文介紹一篇剛剛被人工智能領域頂級會議AAAI2023錄用的文章,該文不再局限于傳統的短視訊字幕生成任務,而是在此基礎上更進一步探索視訊段落字幕概括任務。視訊段落字幕生成任務要求模型對未處理的一段長視訊生成概況性的文字描述,且該視訊中所描述的連貫故事嚴格遵循一定的時間位置。這要求模型具有很強的時空事件提取能力,本文由美國阿肯色大學和卡内基梅隆大學合作完成。

作者遵循人類觀看視訊時的感覺過程,通過将視訊場景分解為視覺(例如人類、動物)和非視覺成分(例如動作、關系)來階層化的了解場景,并且提出了一種稱為Visual-Linguistic(VL)的多模态視覺語言特征。在VL特征中,一個完整的視訊場景主要由三種模态進行模組化,包括:

  • 代表周圍整體場景的全局視覺環境表征
  • 代表目前發生事件的局部視覺主體表征
  • 描述視覺和非視覺元素的語言性場景元素

作者設計了一種自回歸Transformer結構(TinT)來對這三種模态進行表征和模組化,可以同時捕獲視訊中事件内和事件間内容的語義連貫性。為了更加高效的訓練模型,作者還配套提出了一種全新的VL多模态對比損失函數,來保證學習到的嵌入特征與字幕語義相比對,作者在多個段落級字幕生成基準上對模型進行了評估,結果表明本文方法在字幕生成的準确性和多樣性方面性能達到SOTA!

一、引言

視訊字幕生成任務來源于圖像字幕生成任務,其中一個最主要的分支是密集視訊字幕生成(Dense Video Captioning,DVC),在DVC的任務設定中,模型需要按照時間順序生成事件清單,并對每個事件生成相關的句子描述,以此來保證視訊字幕的語義連貫。作為DVC的簡化版本,視訊段落字幕(Video Paragraph Captioning,VPC)的目的是對給定的視訊生成概括性的段落描述,進而簡化事件解析和描述的流程。

通常來說,VPC模型由兩個主要元件組成,即一個編碼器對視訊的每個事件産生一個特征表示,随後送入到一個解碼器來生成相關字幕。之前的VPC方法大多使用一個基于CNN的黑盒網絡來對視訊特征進行編碼,這種做法可能會忽略視訊中視訊和語言模态之間的互動。本文提出的VLTinT模型将視訊場景分解為三種模态,以達到對視訊中視覺和非視覺元素的細粒度描述。此外,為了關注對目前事件具有核心影響的主要代理主體,作者對其加入了混合注意機制(Hybrid Attention Mechanism,HAM)進行學習。下圖展示了本文所提VLTinT模型與其他正常方法的對比。

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

在VPC任務中,模型需要對每個事件都生成一句話描述,并且這些話在邏輯上應該是互相關聯的,是以非常有必要對視訊中的兩種依賴關系進行模組化,即事件内和事件間的依賴關系。之前的方法往往使用基于RNN的方法來對事件内的一緻性進行模拟模組化,但随着Transformer技術在自然語言領域中的迅猛發展,這一結構逐漸被自注意力塊所取代,例如上圖中展示的Trans.XL和MART方法。但是在這些方法中,每個事件依然是獨立解碼,沒有考慮事件間的一緻性,為了應對這一挑戰,本文作者提出了一個全新的Transformer in Transformer架構(TinT),TinT Decoder可以同時兼顧一段視訊中事件内和事件間的依賴關系模組化。相比之前方法簡單的使用最大似然估計損失(MLE)來訓練模型,作者引入了一個新的多模态VL對比損失來保持在訓練過程中對視覺和語言語義的學習,而不增加額外的計算成本。

二、本文方法

本文的VLTinT由兩個主要子產品構成,分别對應一個編碼器VL Encoder和解碼器TinT Decoder。其中VL Encoder主要負責對一段視訊中的不同僚件提取特征表示,而TinT Decoder主要負責對這些特征進行解碼生成每個事件的文字描述,同時對事件内和事件間的一緻性進行模組化。這兩個子產品都通過本文提出的VL對比損失以端到端的方式進行訓練,VLTinT的整體架構如下圖所示,下面我們将詳細介紹每個子產品中的技術細節。

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

2.1 Visual-Linguistic編碼器

在VPC任務中,首先給定一個未修剪的視訊 V = { v i } i = 1 ∣ V ∣ \mathcal{V}=\left\{v_{i}\right\}_{i=1}^{|\mathcal{V}|} V={vi​}i=1∣V∣​ ,其中 ∣ V ∣ |\mathcal{V}| ∣V∣ 是幀數,其中包含重要事件的清單為 E = { e i = ( e i b , e i e ) } i = 1 ∣ E ∣ \mathcal{E}=\left\{e_{i}=\left(e_{i}^{b}, e_{i}^{e}\right)\right\}_{i=1}^{|\mathcal{E}|} E={ei​=(eib​,eie​)}i=1∣E∣​ ,其中 ∣ E ∣ |\mathcal{E}| ∣E∣ 是視訊中的事件數,事件 e i e_{i} ei​ 由一對開始和結束時間戳定義 ( e i b , e i e ) \left(e_{i}^{b}, e_{i}^{e}\right) (eib​,eie​) 。VPC的目标是生成一個可以與整個視訊 V \mathcal{V} V 真實段落相比對的連貫段落 P = { s i } i = 1 ∣ E ∣ \mathcal{P}=\left\{\mathbf{s}_{i}\right\}_{i=1}^{|\mathcal{E}|} P={si​}i=1∣E∣​ 。VL編碼器負責将事件的每個片段 X i X_{i} Xi​ 綜合編碼為一個代表性特征,進而為解碼器構成一系列段落級特征。例如給定事件 e = ( e b , e e ) e=\left(e^{b}, e^{e}\right) e=(eb,ee) 及其對應的視訊幀 V e = { v i ∣ e b ≤ i ≤ e e } \mathcal{V}_{e}=\left\{v_{i} \mid e^{b} \leq i \leq e^{e}\right\} Ve​={vi​∣eb≤i≤ee},作者遵循現有标準設定對 V e \mathcal{V}_{e} Ve​ 進行劃分。每個片段 X i X_{i} Xi​ 由 δ \delta δ 個連續幀組成, V e \mathcal{V}_{e} Ve​ 總共有 L = ⌈ ∣ V e ∣ δ ⌉ L=\left\lceil\frac{\left|\mathcal{V}_{e}\right|}{\delta}\right\rceil L=⌈δ∣Ve​∣​⌉ 個片段。如上圖左半部所示,VL編碼器子產品将每個片段 X i X_{i} Xi​ 編碼為 f i V L f_{i}^{V L} fiVL​ 。

在具體的編碼過程中,作者首先對三種模态資料分開模組化,随後根據它們之間的互相作用将其融合成一個綜合表示,具體來說,給定一個片段 X i X_{i} Xi​ ,它被編碼為三種模式,分别對應于 f i e f_{i}^{e} fie​​ 、 f a i f_{a}^{i} fai​ 和 f l e i f_{l}^{ei} flei​ 。然後通過多模态表征融合(Multi-modal Representation Fusion,M2RF)子產品得到代表互動的最終特征 f i V L f_{i}^{V L} fiVL​ ,具體如下。

全局視覺環境表征

這種模态包含了輸入片段 X i X_{i} Xi​ 的整個空間場景的視覺語義資訊。作者使用預訓練的3D-CNN作為骨幹網絡進行特征抽取,在網絡的最後一個卷積塊提取特征圖 H i H_{i} Hi​ 。然後通過對 H i H_{i} Hi​ 進行平均池化操作以減少整個空間次元,并通過通道MLP來獲得全局環境視覺特征 f i e ∈ R d e m b f_{i}^{e} \in \mathbb{R}^{d_{\mathrm{emb}}} fie​∈Rdemb​ 。該過程形式化表達如下:

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

局部視覺主體表征

局部視覺主體作為事件的主要貢獻對象,需要進行重點關注,但是需要注意的是,并非所有的主體動作都與事件片段的主要内容有關,是以作者首先對 X i X_{i} Xi​ 的中心幀使用人體檢測器進行檢測來獲得視覺主體的邊界框,随後使用RoIAlign擷取每個邊界框的特征圖,然後将這些特征圖平均彙集到一個單一的特征向量中以代表該框内視覺主體的視覺特征。最後使用HAM來适應性地從檢測到的主體中提取其中的互相關系,形成一個統一的代理感覺的視覺特征 f i a ∈ R d e m b f_{i}^{a} \in \mathbb{R}^{d_{\mathrm{emb}}} fia​∈Rdemb​ ,具體操作如下:

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

語言場景元素

與前兩種模态中包含的場景空間外觀和主體對象的運動視覺資訊相比,語言場景元素提供了額外的場景上下文細節。此外作者考慮到普通的視覺主幹可能隻會關注到視覺特征,而忽略掉一些與場景事件高度相關的非視覺資訊,是以作者考慮使用對比語言圖像預訓練模型CLIP[1,2]來将非視覺文本與給定的圖像進行關聯,具體來說,作者為資料集建構一個詞彙表 W = { w 1 , … w m } \mathcal{W}=\left\{w_{1}, \ldots w_{m}\right\} W={w1​,…wm​} 。每個詞彙表 w i ∈ W w_{i} \in \mathcal{W} wi​∈W 都被一個transformer網絡 f ϕ f_{\phi} fϕ​ 編碼成一個文本特征 f i w f_{i}^{w} fiw​ ,如下圖所示。

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

令 W t W_{t} Wt​ 為CLIP預訓練的文本投影矩陣,其中嵌入文本詞彙計算過程如下:

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

多模态表征融合M2RF子產品

M2RF的作用是融合三種模态的特征,與目前常見的連接配接和求和方式不同,M2RF更着重于模拟每個單獨模态對結果的影響,作者将M2RF形式化為一個函數 g γ g_{\gamma} gγ​ ,它将特征 f i e , f i a f_{i}^{e}, f_{i}^{a} fie​,fia​ 以及 f l i f_{l}^{i} fli​ 作為輸入,然後通過自注意層來提取特征間的關系,然後再進行平均運算。給定一個片段 X i X_{i} Xi​ ,其最終表示 f i V L ∈ R d e m b f_{i}^{V L} \in \mathbb{R}^{d_{\mathrm{emb}}} fiVL​∈Rdemb​ 如下:

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

2.2 TinT解碼器

TinT解碼器的結構受視覺語言Transformer模型的啟發,采用統一的編碼-解碼Transformer結構作為字幕生成器的基礎。在這種設計原則指引下,視訊特征 F V L \mathcal{F}^{V L} FVL 首先将VL編碼器得到的所有片段特征進行串聯,即 F V L = { f i V L } i = 1 L ∈ R L × d cmb  \mathcal{F}^{V L}=\left\{f_{i}^{V L}\right\}_{i=1}^{L} \in \mathbb{R}^{L \times d_{\text {cmb }}} FVL={fiVL​}i=1L​∈RL×dcmb ​ 。其中文本标記 F text  \mathcal{F}^{\text {text }} Ftext  由來自CLIP的預訓練文本編碼器 g ϕ g_{\phi} gϕ​ 和MLP層編碼得到:

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

2.3 VL多模态對比損失

與之前方法使用的MLE損失相比,本文提出的VL對比損失在學習預測字幕與GT文本相比對的基礎上,利用對比學習的優勢幫助模型對同一類事件的不同片段進行事件級的比對對齊。本文提出的VL損失由兩部分組成,分别對應字幕損失 L c a p . \mathcal{L}_{cap.} Lcap.​ 和對比性語境損失 L c o n . \mathcal{L}_{c o n.} Lcon.​ 。其中 L c a p . \mathcal{L}_{cap.} Lcap.​ 的目的是解碼與GT相比對的字幕,而 L c o n . \mathcal{L}_{c o n.} Lcon.​ 則保證學習到的潛在特征與GT字幕中編碼的語義資訊接近。

三、實驗效果

本文在兩個流行的視訊多事件資料集ActivityNet Captions和YouCookII上進行了基準側測試,評價名額分為準确性和多樣性兩種。作者首先将VLTinT與之前的SOTA VPC方法進行了對比,實驗結果如下表所示,其中作者突出顯示了每個名額對應的最佳和次佳分數。與其他方法相比,本文的VLTinT在這兩個方面都表現出了生成字幕的準确性和多樣性。

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結
AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

此外,作者還展示了VLTinT與其他方法的可視化字幕生成對比,如下圖所示,可以觀察到,VLTinT可以生成更多具有細粒度細節的描述性字幕。特别地,作者觀察到VTrans和MART更傾向于在其标題中使用高頻詞,而VLTinT可以使用富有表現力但出現頻率較低的詞,例如示例中的“A man”與“An athlete man”。這是因為VLTinT中的VL編碼器可以更加全面的捕獲場景中的其他視覺元素,這幫助模型更加全面的對場景進行了解。

AAAI 2023|模拟人腦場景感覺過程,套娃Transformer講故事能力更上一層樓一、引言二、本文方法三、實驗效果四、總結

四、總結

在這項工作中,作者針對視訊段落級字幕生成任務(VPC)提出了一種新式的Transformer in Transformer結構,該結構由一個VL編碼器和TinT解碼器組成。值得注意的是,作者在VL編碼器中首次對視訊場景劃分了三種獨特模态進行分層次模組化和學習,這種方式非常貼合人腦對視訊資料的感覺過程。這為社群在這一方面的研究樹立了一個非常好的研究思路,此外,在TinT解碼器中的自回歸結構可以有效地學習視訊中事件内和事件間的不同依賴關系,也幫助提高了模型的整體性能。作者在未來展望中提到,可以将VLTinT模型提取的多模态視訊特征擴充到其他用途更廣泛的密集視訊字幕生成任務中,以提高AI視訊制作的工作效率。

參考

[1] Patashnik, O.; Wu, Z.; et al. 2021. StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. In ICCV, 2065–2074.

[2] Yang, B.; and Zou, Y. 2021. CLIP Meets Video Captioners: Attribute-Aware Representation Learning Promotes Accurate Captioning. ArXiv preprint, abs/2111.15162.

Illustration by IconScout Store from IconScout

-The End-

關于我“門”

将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門-TechBeat技術社群以及将門創投基金。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

[email protected]

繼續閱讀