天天看点

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

原文链接:http://cn.arxiv.org/pdf/1509.06664

读这篇论文的目的在于另一篇阅读理解的文章使用了这其中的方法

    摘要部分

        问题的引入,目前自然语言处理领域对于句子的蕴含关系或者依存关系的识别,通常是使用基于大量人工标注特征的数据进行分类,但是实际上他们的分类效果并没有比词袋模型好到哪儿去,构建一个端到端的神经网络分类器也很难取得优势,因此本文提出一个基于LSTM的神经网络模型,目的在于读取两个句子并确立其中的蕴含关系。作者使用逐字的注意力机制对模型进行拓展,这种注意力机制有助于字词之间蕴含关系的推理。此外,作者定性的分析了该注意力机制模型所产生的权值,证明了模型的有效性,并且在一个大数据集上取得了state-of-art的成绩。

   介绍部分

        确定两个句子之间的语义关系是自然语言理解和推理机的重要组成部分,文本蕴含识别任务是指判断两个句子是否存在否定或者不相干或者存在着包含的关系,然后就是介绍相关的研究进展,也就是related work由于不是研究这方面的内容,因此省略。作者针对这个任务提出了一个带有注意力的神经网络。这个模型能够处理以前提为条件的假设来推理词与词,短语与短语之间的蕴含关系。作者的贡献主要有以下三点:

  • 作者提出一种基于LSTM的神经网络,区别于将句子独立的嵌入语义空间,该模型一次性读入两个句子,并确立起关系。
  • 使用词与词之间的注意力机制对模型进行拓展,这有助于字词之间蕴含关系的推理。
  • 对于注意力机制在RTE这个任务中的表现进行了定性的分析

    方法部分

     LSTM

       首先是基础性的知识介绍,因为时间有限,就不细看了,直接上公式略过,就是基本的LSTM定义

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

 然后作者阐明了LSTM神经网络很适用于文本蕴含类的任务。

      CONDITIONAL ENCODING

作者提出一种模型,能够同时读入两个句子已确定其中的蕴含关系,进而推断词语对儿之间的蕴含关系,整个模型的框架如图1所示:

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

其中前提部分由左侧的LSTM网络读入,右侧的LST网络使用全新的参数,读入一个分隔符后继续读入假设,但是后者的初始输入使用前者的末态,它是以前一个LSTM为前提构建的表示,使用Wird2Vec作为字符向量的初始,并且在训练期间不做优化,对于OOV的单词采用随机初始化向量,这样处理的目的在于推理的过程中可以避免近义词的干扰,之后使用一个线性层将字符映射为向量,从而产生LSTM的输入矩阵,最后使用softmax进行分类,目标空间为三类,使用交叉熵作为损失。这个模型类似于seq2seq但是又不是,首先encoder部分对premise(前提)进行编码,decoder 部分处理假设,但是解码器不是一个语言模型,而是与编码部分使用相同的网络,并且使用编码的末态作为输出,最终的输出作为分类器的输入。

    ATTENTION

接下来作者提出了三种不同的Attention的方法,首先也是最为常用的一种方法,attention机制也是参考于Bahdanau et al. (2015)很经典的方法,不同的是,作者使用用注意力机制不是来生成单词(权重),而是通过在前提和假设中对单词和短语进行软对齐,从细粒度的推理中获得一个句子对编码。但是这个任务不同于机器翻译啥的,并不一定需要做软对齐,只需要表示好两个句子之间的关系即可,因此首先作者提出的方法也是将premise与hypothesis建立起注意力关系,公式如下:

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

因此该模型的目的在于将hypothesis的句子表示与premise建立注意力机制,而不是将hypothesis、premise的每个单词都做对齐。从上图中标记B的地方也可以看出,attention仅仅依赖于hypothesis的last hidden state。结果可以参看下图:

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

      WORD-BY-WORD ATTENTION

        为了确定一个句子是否蕴含另一个句子,最好的方法就是检查每个词和短语对的蕴含或矛盾的关系,因此作者提出了word2word的attention机制,与基本的attention模型不同的是,不是用注意力来生成单词,而是通过在前提和假设中对单词和短语进行软对齐,从细粒度的推理中获得一个句子对编码。这个模型与先前的模型并没有什么差别,只是模型对假设和前提中的每个单词进行对齐,公式如下:

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

因此模型可以生成一个权重矩阵,这时候计算权重并不是使用前LSTM的末态,而是使用前者的全部隐藏输出。从而建立起两个文本序列之间的关系。结果可以参看下图:

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

      TWO-WAY ATTENTION

        最后一种模型借鉴了双向RNN的思想,使用两个相同参数的LSTM,第一个LSTM从一个方向上对基于hypothesis的premise进行表示,而第二个LSTM从相反的方向上对基于premise的hypothesis进行表示,最终将两个句子拼接起来作为分类的输入。

        实验结果

REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记

我们可以看到word2word的结果最好,模型A的效果最差,使用双向rnn的效果并没有比单向的好 ,作者分析说用了相同的参数来做训练带来了更多的噪声,所以效果并不好。

由于只是参考,本文其余部分就不做细读了,有时间再说 (๑•̀ㅂ•́)و✧

继续阅读