天天看點

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

AI科技評論報道

編輯 | 陳大鑫

世界自然語言處理方向三大頂會之一NAACL 2021(另外兩個是ACL和EMNLP) 已經于2021年6月6日至11日以線上會議的形式成功舉辦。

來自羅切斯特大學&騰訊 AI Lab合作的《Video-aided Unsupervised Grammar Induction》一文獲得了最佳長論文,并于2021年6月9日在NAACL 2021上宣講。

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

詳見:https://2021.naacl.org/blog/best-paper-awards/

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

論文連結:https://arxiv.org/pdf/2104.04369.pdf

論文導讀

近年來,有一系列工作利用視覺信号來提升句法分析器的性能,并取得了不錯的結果。但這些工作局限于靜态圖檔,卻忽略了視訊中物體場景等動态變化的資訊。而這些動态資訊往往對于動詞性短語的句法學習更有用。

本文首先研究了視訊中不同類型的特征(物體,動作,場景,聲音,人臉,OCR和語音)對句法分析器的影響。此外,本文還提出了一個新的模型Multi-Modal Compound PCFG (MMC-PCFG),可有效利用多種不同視訊特征進一步提高句法分析器的性能。

1

背景介紹

長久以來,句法分析一直都是NLP研究的熱點話題之一。很多現有的方法都是在有文法标注的資料集上學習。但是這種有監督的學習存在兩個弱點:

1. 标注這樣的資料集需要大量的語言專家,費時費力。

2. 隻有幾個常見語種有标注好的資料集,許多小語種甚至沒有足夠的語言專家來标資料。

是以,近些年來有越來越多的研究試圖從海量未标注的文本中來進行無監督的句法學習。以C-PCFG [1]為例(見下圖),給定一個句子,句法抽取器(Grammar Inducer)預測出一個句法圖(Chart),并對句子的邊緣似然函數進行優化。

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

圖 1 C-PCFG示意圖

因為這些無監督的方法都是以純文字為輸入,而視覺中含有很多文本所不具備的知識,是以最近有一些方法[2,3]試圖通過圖檔資訊來輔助無監督句法分析。以VC-PCFG [3] 為例(見下圖),它在C-PCFG的基礎上額外增加了一個圖檔和句子之間的損失函數,通過圖檔特征對文本特征進行正則化,可進一步提高句法抽取器的性能。

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

圖 2 VC-PCFG示意圖

但是這種方法的提升是有局限的。從VC-PCFG論文的實驗部分可以看到,相較于C-PCFG,VC-PCFG主要提升的是NP的性能,而在其他常見的短語類型上的提升并不明顯,如VP,PP,SBAR, ADJP和ADVP。這一現象也存在在另一篇文章VG-NSL [2] 中。

一個可能的解釋是這兩篇文章用到的圖檔特征提取器是在物體分類上訓練的,這種特征對于物體有比較準确的描述進而提升了NP。但對于涉及到物體的動作和變化的短語類型,如VP,因為圖檔是靜态的,這種物體分類的特征并不不能提供這樣的變化資訊。但如果我們将靜态圖檔換成動态視訊,很有可能對涉及到動詞的短語類型也會有所提升。

2

本文方法

本文提出了Multi-Modal Compound PCFGs (MMC-PCFG)用于視訊輔助的無監督句法分析 ,架構如下。與VC-PCFG [3]不同的是,本模型以視訊作為輸入,并融合了視訊多種模态的資訊,是VC-PCFG [3] 在視訊上的泛化。

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

圖3 MMC-PCFG 示意圖

對于每個視訊我們首先在時間上等間隔抽取包括物體,動作,場景,聲音,字元,人臉,語音在内的共M種特征。

本文借鑒多模态transformer [4]來計算視訊和文本片段之間的相似度。具體來說,我們首先把輸入特征的連接配接在一起

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

這裡

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

的平均。

此外我們還使用特征類型編碼

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

和位置編碼

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

來區分不同視訊特征的種類和時間順序。然後将這三者的加和作為transformer的輸入,并使用與各平均特征對應位置的輸出作為視訊特征的輸出,記作

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

接下來我們計算視訊V和某個句子

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

中某個片段c之間的相似度。這裡用c表示該片段的特征。我們利用gated embedding module将c映射到M個不同的編碼,記作

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

。然後視訊和文中片段的相似度可以通過權重求和這M對視訊和文中片段的cosine值得到,即

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

。這裡的權重

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

是将c輸入到一個線性層通過softmax得到。

我們用hinge loss來計算視訊V和某文本片段c的損失函數,即

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析
NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

這裡

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

分别表示的是其他句子的某個片段和其他視訊的特征。視訊V和句子

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

也相應地定義為所有片段的權重求和

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

,這裡的權重 通過句法圖獲得。

訓練時,我們同時優化句子的邊緣機率函數和句子視訊的比對函數。測試時,隻需要輸入文本,通過CKY算法即可推導出句法樹。

3

實驗結果

我們在三個資料集(DiDeMo, YouCook2, MSRVTT)上做了實驗。因為這些資料集沒有文法标注,我們用一個監督學習的方法 [5]預測出來的結果當作reference tree。對于物體和動作特征,我們還用不同模型提取了多種不同的特征,包括物體(ResNeXt-101,SENet-154)和動作(I3D,R2P1D,S3DG)。每組實驗都跑10個epoch并用不同的種子跑了4次。實驗結果見表1。

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

表1 各方法之間的性能對比

LBranch,RBranch和Random代表left branching tree, right branching tree 和random tree。因為VC-PCFG是為圖檔設計的,不能直接以視訊作為輸入。為了對比VC-PCFG,我們設計了一些簡單的baseline。第一種baseline是将單個特征在時間軸上取平均,作為VC-PCFG輸入 (ResNeXt, SENet …, Speech)。另一個baseline是将這些取平均的特征連接配接在一起然後作為VC-PCFG的輸入 (Concat)。

首先我們比較C-F1和S-F1這兩個綜合評名額。Right Branching性能很強主要因為英語很大程度上是right branching的。VC-PCFG整體上要比比C-PCFG效果要好,說明利用視訊資訊是有幫助的。簡單的将所有特征連在一起并不能讓效果變的更好,有時甚至還不如單個特征(比如Concat 和 R2P1D)。其主要原因是沒有考慮特征直接的關系。而我們提出的MMC-PCFG在所有三個資料集中性能都達到了最好的結果,說明我們的模型可以有效利用所有特征的資訊。

接下來我們比較這些方法在NP,VP 和PP三種常見短語類型的召回率。對比在單個特征訓練的VC-PCFG,使用物體特征(ResNeXt-101,SENet-154)在NP上的效果更好,而使用動作特征(I3D,R2P1D,S3DG)在VP和PP上效果更好。這驗證了不同特征對不同的句法結構貢獻不同。

和VC-PCFG相比,MMC-PCFG在NP,VP和PP的召回率都是前兩名且标準差較小,再次說明MMC-PCFG可以有效利用所有特征的資訊,并給出較為一緻的預測。

4

結語

受限于靜态圖檔的表達能力,現有基于圖檔的無監督句法分析方法對于動詞相關的短語提升有限。本文所提出的利用視訊來輔助無監督句法分析可有效的解決這個問題。同時本文還提出了Multi-Modal Compound PCFG用來內建多種不同的特征。該模型的有效性在三個資料集上得到了驗證。

更多技術細節詳見論文:《Video-aided Unsupervised Grammar Induction》

論文作者介紹

本文作者:張宋揚,宋林峰,金立峰,許坤,俞棟,羅傑波。

本文第一作者張宋揚,羅切斯特大學計算機科學系三年級博士生,導師是羅傑波教授。主要研究興趣是視訊和語言的了解,如視訊片段定位,視訊動作檢測,句法分析等。其餘四位作者來自Tencent AI Lab, USA。

論文連結:https://arxiv.org/pdf/2104.04369.pdf

代碼:https://github.com/Sy-Zhang/MMC-PCFG

引用:

[1] Kim et al. Compound Probabilistic Context-Free Grammars for Grammar Induction. ACL 2019

[2] Shi et al. Visually Grounded Neural Syntax Acquisition. ACL 2019

[3] Zhao et al. Visually Grounded Compound PCFGs. EMNLP 2020

[4] Gabeur et al. Multi-modal Transformer for Video Retrieval. ECCV 2020

[5] Kitaev et al. Constituency Parsing with a Self-Attentive Encoder. ACL 2018