
AI科技评论报道
编辑 | 陈大鑫
世界自然语言处理方向三大顶会之一NAACL 2021(另外两个是ACL和EMNLP) 已经于2021年6月6日至11日以在线会议的形式成功举办。
来自罗切斯特大学&腾讯 AI Lab合作的《Video-aided Unsupervised Grammar Induction》一文获得了最佳长论文,并于2021年6月9日在NAACL 2021上宣讲。
详见:https://2021.naacl.org/blog/best-paper-awards/
论文链接:https://arxiv.org/pdf/2104.04369.pdf
论文导读
近年来,有一系列工作利用视觉信号来提升句法分析器的性能,并取得了不错的结果。但这些工作局限于静态图片,却忽略了视频中物体场景等动态变化的信息。而这些动态信息往往对于动词性短语的句法学习更有用。
本文首先研究了视频中不同类型的特征(物体,动作,场景,声音,人脸,OCR和语音)对句法分析器的影响。此外,本文还提出了一个新的模型Multi-Modal Compound PCFG (MMC-PCFG),可有效利用多种不同视频特征进一步提高句法分析器的性能。
1
背景介绍
长久以来,句法分析一直都是NLP研究的热点话题之一。很多现有的方法都是在有语法标注的数据集上学习。但是这种有监督的学习存在两个弱点:
1. 标注这样的数据集需要大量的语言专家,费时费力。
2. 只有几个常见语种有标注好的数据集,许多小语种甚至没有足够的语言专家来标数据。
因此,近些年来有越来越多的研究试图从海量未标注的文本中来进行无监督的句法学习。以C-PCFG [1]为例(见下图),给定一个句子,句法抽取器(Grammar Inducer)预测出一个句法图(Chart),并对句子的边缘似然函数进行优化。
图 1 C-PCFG示意图
因为这些无监督的方法都是以纯文本为输入,而视觉中含有很多文本所不具备的知识,因此最近有一些方法[2,3]试图通过图片信息来辅助无监督句法分析。以VC-PCFG [3] 为例(见下图),它在C-PCFG的基础上额外增加了一个图片和句子之间的损失函数,通过图片特征对文本特征进行正则化,可进一步提高句法抽取器的性能。
图 2 VC-PCFG示意图
但是这种方法的提升是有局限的。从VC-PCFG论文的实验部分可以看到,相较于C-PCFG,VC-PCFG主要提升的是NP的性能,而在其他常见的短语类型上的提升并不明显,如VP,PP,SBAR, ADJP和ADVP。这一现象也存在在另一篇文章VG-NSL [2] 中。
一个可能的解释是这两篇文章用到的图片特征提取器是在物体分类上训练的,这种特征对于物体有比较准确的描述从而提升了NP。但对于涉及到物体的动作和变化的短语类型,如VP,因为图片是静态的,这种物体分类的特征并不不能提供这样的变化信息。但如果我们将静态图片换成动态视频,很有可能对涉及到动词的短语类型也会有所提升。
2
本文方法
本文提出了Multi-Modal Compound PCFGs (MMC-PCFG)用于视频辅助的无监督句法分析 ,框架如下。与VC-PCFG [3]不同的是,本模型以视频作为输入,并融合了视频多种模态的信息,是VC-PCFG [3] 在视频上的泛化。
图3 MMC-PCFG 示意图
对于每个视频我们首先在时间上等间隔抽取包括物体,动作,场景,声音,字符,人脸,语音在内的共M种特征。
本文借鉴多模态transformer [4]来计算视频和文本片段之间的相似度。具体来说,我们首先把输入特征的连接在一起
这里
是
的平均。
此外我们还使用特征类型编码
和位置编码
来区分不同视频特征的种类和时间顺序。然后将这三者的加和作为transformer的输入,并使用与各平均特征对应位置的输出作为视频特征的输出,记作
。
接下来我们计算视频V和某个句子
中某个片段c之间的相似度。这里用c表示该片段的特征。我们利用gated embedding module将c映射到M个不同的编码,记作
。然后视频和文中片段的相似度可以通过加权求和这M对视频和文中片段的cosine值得到,即
。这里的权重
是将c输入到一个线性层通过softmax得到。
我们用hinge loss来计算视频V和某文本片段c的损失函数,即
这里
和
分别表示的是其他句子的某个片段和其他视频的特征。视频V和句子
也相应地定义为所有片段的加权求和
,这里的权重 通过句法图获得。
训练时,我们同时优化句子的边缘概率函数和句子视频的匹配函数。测试时,只需要输入文本,通过CKY算法即可推导出句法树。
3
实验结果
我们在三个数据集(DiDeMo, YouCook2, MSRVTT)上做了实验。因为这些数据集没有语法标注,我们用一个监督学习的方法 [5]预测出来的结果当作reference tree。对于物体和动作特征,我们还用不同模型提取了多种不同的特征,包括物体(ResNeXt-101,SENet-154)和动作(I3D,R2P1D,S3DG)。每组实验都跑10个epoch并用不同的种子跑了4次。实验结果见表1。
表1 各方法之间的性能对比
LBranch,RBranch和Random代表left branching tree, right branching tree 和random tree。因为VC-PCFG是为图片设计的,不能直接以视频作为输入。为了对比VC-PCFG,我们设计了一些简单的baseline。第一种baseline是将单个特征在时间轴上取平均,作为VC-PCFG输入 (ResNeXt, SENet …, Speech)。另一个baseline是将这些取平均的特征连接在一起然后作为VC-PCFG的输入 (Concat)。
首先我们比较C-F1和S-F1这两个综合评指标。Right Branching性能很强主要因为英语很大程度上是right branching的。VC-PCFG整体上要比比C-PCFG效果要好,说明利用视频信息是有帮助的。简单的将所有特征连在一起并不能让效果变的更好,有时甚至还不如单个特征(比如Concat 和 R2P1D)。其主要原因是没有考虑特征直接的关系。而我们提出的MMC-PCFG在所有三个数据集中性能都达到了最好的结果,说明我们的模型可以有效利用所有特征的信息。
接下来我们比较这些方法在NP,VP 和PP三种常见短语类型的召回率。对比在单个特征训练的VC-PCFG,使用物体特征(ResNeXt-101,SENet-154)在NP上的效果更好,而使用动作特征(I3D,R2P1D,S3DG)在VP和PP上效果更好。这验证了不同特征对不同的句法结构贡献不同。
和VC-PCFG相比,MMC-PCFG在NP,VP和PP的召回率都是前两名且标准差较小,再次说明MMC-PCFG可以有效利用所有特征的信息,并给出较为一致的预测。
4
结语
受限于静态图片的表达能力,现有基于图片的无监督句法分析方法对于动词相关的短语提升有限。本文所提出的利用视频来辅助无监督句法分析可有效的解决这个问题。同时本文还提出了Multi-Modal Compound PCFG用来集成多种不同的特征。该模型的有效性在三个数据集上得到了验证。
更多技术细节详见论文:《Video-aided Unsupervised Grammar Induction》
论文作者介绍
本文作者:张宋扬,宋林峰,金立峰,许坤,俞栋,罗杰波。
本文第一作者张宋扬,罗切斯特大学计算机科学系三年级博士生,导师是罗杰波教授。主要研究兴趣是视频和语言的理解,如视频片段定位,视频动作检测,句法分析等。其余四位作者来自Tencent AI Lab, USA。
论文链接:https://arxiv.org/pdf/2104.04369.pdf
代码:https://github.com/Sy-Zhang/MMC-PCFG
引用:
[1] Kim et al. Compound Probabilistic Context-Free Grammars for Grammar Induction. ACL 2019
[2] Shi et al. Visually Grounded Neural Syntax Acquisition. ACL 2019
[3] Zhao et al. Visually Grounded Compound PCFGs. EMNLP 2020
[4] Gabeur et al. Multi-modal Transformer for Video Retrieval. ECCV 2020
[5] Kitaev et al. Constituency Parsing with a Self-Attentive Encoder. ACL 2018