天天看点

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

From AAAI2020

论文链接:Message Passing Attention Networks for Documents Understanding

文章目录

  • 1. Abstract
  • 2. Introduction
  • 3. Message Passing Neural Networks
  • 4. Message Passing Attention Network for Document Understanding(MPAD)
    • 4.1 Word co-occurrence networks
    • 4.2 Message passing mechanism
    • 4.3 variants
  • 5. Experiments

1. Abstract

作者首先大致介绍了自己的工作:将文档表示成为词共现网络并且提出了一种新的消息传播机制,提出模型MPAD及其相应变体。

2. Introduction

此部分作者简介了前人对于图上的消息传播机制(message passing over graphs)的工作,接着引出了自己的工作,作者提出的模型学习到的表示与SOTA模型有竞争力。

3. Message Passing Neural Networks

作者总结了当前GNNS的消息传播机制的通用框架MP(aggregate – combine – readout)。

Aggregate:

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

对于节点v的t+1时间步的消息m,是由其t时间步的邻居节点的特征向量聚合而来。

Combine

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

经过aggregate操作后,节点v在t+1时间步的特征向量更新为:由t+1时间的消息向量和其自身在t时间的特征向量结合得到。

Readout

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

整个graph的特征表示通过readout函数将其各节点在t轮迭代后的特征表示聚合得到。

4. Message Passing Attention Network for Document Understanding(MPAD)

在这部分作者提出了他们的用于document understanding的模型结构。

4.1 Word co-occurrence networks

首先是建图:作者对于每一个document,将文档中的每一个词视为一个节点建立一个词共现网络(用大小为2的滑动窗口选取共现词,前后相邻的词之间连边,注意此图是有向图,边的方向反映了词的顺序,这在一些GNNs里面是被忽略的),边权是词的共现次数。

同时,作者加入了master node来表示文档,与其他所有节点连接权重为1的双向边。

4.2 Message passing mechanism

此部分作者提出了他们的MP框架(Aggregate && Combine && Readout)

Aggregate:

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

其中:m是t+1时间的消息,MLP为多层感知机,D为对角入度矩阵,A为邻接矩阵(由于是有向图,A不对称,并且不考虑被更新节点自身的特征,A的对角为0),H为n*d为的矩阵表示n个节点的d维特征的矩阵。

之后做了归一化处理,使 D − 1 A D^{-1} A D−1A的每一行和为1。

Combine:

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

作者使用GRU-based模型来作为MP的combine函数,即将t时刻的特征表示和t+1时刻的消息输入到GRU中得到t+1时刻的特征向量。

公式表示中R为重置门,Z为更新门,W和U为可训练参数矩阵。

Readout

经过上面的aggregate和combine后,作者通过attention作为readout函数得到整个graph的特征表示。

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

其中H^为除去master节点的其余节点特征矩阵,作者跳过了master节点的readout,因为其认为master节点包含了高层次的文档表示。

Multi-readout

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

同时,作者认为前人只在最后一层使用readout会损失掉传播过程中图的大量特征,因此作者在t次迭代的每一次都做了一次readout(Multi-readout),最后拼接成为graph的特征。

4.3 variants

此部分作者提出了MPAD的三种变体,这些变体都先对每个句子以词共现建图,在将句子作为节点为文档建图。

包括:

MPAD-sentence-att:

通过自注意力机制来得到句子embedding。

MPAD-clique:

构建句子节点之间两两相连的完全图。

MPAD-path:

更改MPAD-clique为建立只连接前后相邻句的有向图。

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

5. Experiments

作者用MPAD及其变体在10个文本分类数据集上和其他baseline模型做了对比实验:

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

可以看出MPAD及其变体在大多数data上取得了SOTA的效果。

同时,作者对于MPAD的MP迭代次数和建图要素进行了实验:

论文阅读总结(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments

继续阅读