論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments From AAAI2020
論文連結:Message Passing Attention Networks for Documents Understanding
文章目錄
- 1. Abstract
- 2. Introduction
- 3. Message Passing Neural Networks
- 4. Message Passing Attention Network for Document Understanding(MPAD)
-
- 4.1 Word co-occurrence networks
- 4.2 Message passing mechanism
- 4.3 variants
- 5. Experiments
1. Abstract
作者首先大緻介紹了自己的工作:将文檔表示成為詞共現網絡并且提出了一種新的消息傳播機制,提出模型MPAD及其相應變體。
2. Introduction
此部分作者簡介了前人對于圖上的消息傳播機制(message passing over graphs)的工作,接着引出了自己的工作,作者提出的模型學習到的表示與SOTA模型有競争力。
3. Message Passing Neural Networks
作者總結了目前GNNS的消息傳播機制的通用架構MP(aggregate – combine – readout)。
Aggregate:
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 對于節點v的t+1時間步的消息m,是由其t時間步的鄰居節點的特征向量聚合而來。
Combine
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 經過aggregate操作後,節點v在t+1時間步的特征向量更新為:由t+1時間的消息向量和其自身在t時間的特征向量結合得到。
Readout
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 整個graph的特征表示通過readout函數将其各節點在t輪疊代後的特征表示聚合得到。
4. Message Passing Attention Network for Document Understanding(MPAD)
在這部分作者提出了他們的用于document understanding的模型結構。
4.1 Word co-occurrence networks
首先是建圖:作者對于每一個document,将文檔中的每一個詞視為一個節點建立一個詞共現網絡(用大小為2的滑動視窗選取共現詞,前後相鄰的詞之間連邊,注意此圖是有向圖,邊的方向反映了詞的順序,這在一些GNNs裡面是被忽略的),邊權是詞的共現次數。
同時,作者加入了master node來表示文檔,與其他所有節點連接配接權重為1的雙向邊。
4.2 Message passing mechanism
此部分作者提出了他們的MP架構(Aggregate && Combine && Readout)
Aggregate:
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 其中:m是t+1時間的消息,MLP為多層感覺機,D為對角入度矩陣,A為鄰接矩陣(由于是有向圖,A不對稱,并且不考慮被更新節點自身的特征,A的對角為0),H為n*d為的矩陣表示n個節點的d維特征的矩陣。
之後做了歸一化處理,使 D − 1 A D^{-1} A D−1A的每一行和為1。
Combine:
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 作者使用GRU-based模型來作為MP的combine函數,即将t時刻的特征表示和t+1時刻的消息輸入到GRU中得到t+1時刻的特征向量。
公式表示中R為重置門,Z為更新門,W和U為可訓練參數矩陣。
Readout
經過上面的aggregate和combine後,作者通過attention作為readout函數得到整個graph的特征表示。
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 其中H^為除去master節點的其餘節點特征矩陣,作者跳過了master節點的readout,因為其認為master節點包含了高層次的文檔表示。
Multi-readout
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 同時,作者認為前人隻在最後一層使用readout會損失掉傳播過程中圖的大量特征,是以作者在t次疊代的每一次都做了一次readout(Multi-readout),最後拼接成為graph的特征。
4.3 variants
此部分作者提出了MPAD的三種變體,這些變體都先對每個句子以詞共現建圖,在将句子作為節點為文檔建圖。
包括:
MPAD-sentence-att:
通過自注意力機制來得到句子embedding。
MPAD-clique:
建構句子節點之間兩兩相連的完全圖。
MPAD-path:
更改MPAD-clique為建立隻連接配接前後相鄰句的有向圖。
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 5. Experiments
作者用MPAD及其變體在10個文本分類資料集上和其他baseline模型做了對比實驗:
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments 可以看出MPAD及其變體在大多數data上取得了SOTA的效果。
同時,作者對于MPAD的MP疊代次數和建圖要素進行了實驗:
論文閱讀總結(Message Passing Attention Networks for Documents Understanding)1. Abstract2. Introduction3. Message Passing Neural Networks4. Message Passing Attention Network for Document Understanding(MPAD)5. Experiments