天天看點

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

論文解讀

這次分享的論文是:

http://hlt.suda.edu.cn/~zhli/papers/liying_ijcai19_dp.pdf

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

是由SUDA-HLT實驗室LA組的博士二年級學生李英發表在2019IJCAI上的一篇文章。

根據這個題目Self-attentive Biaffine Dependency Parsing你可能會想到經典的biaffine parser(不了解的點這個連結):

https://arxiv.org/pdf/1611.01734.pdf

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

和Transformer的Encoder:

https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

對,就是這樣的,可以說是強強聯合,将目前的parser SOTA模型(biaffine parser based bilstm)的提取特征層(bilstm)替換成self-attention(Transformer的Encoder層)來提取特征。效果和用bilstm的效果幾乎是一樣的:

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

LAS基本一樣,但是這篇文章新穎的點在哪裡呢?

1.第一次将self-attention使用在parser裡

2.獲得了和SOTA模型幾乎一樣的性能

3.同樣相似的效果但不同類型的encoder(bilstm和self-attention)ensemble起來效果會更好

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

4.驗證了最新的預訓練資料(ELMo和BERT)能夠提高parser的性能。

【一分鐘論文】IJCAI2019 | Self-attentive Biaffine Dependency Parsing

5.速度上,并行的self-attention肯定比bilstm要快。

總結

做個總結吧,ijcai是一類頂會,宏觀角度看這篇文章

1. 很前沿:

  • 李英師姐用了目前最火的self-attention(Transformer的encoder)替換了我們一直使用的SOTA模型biaffine parser based bilstm 的 bilstm
  • 使用了最新的預訓練模型ELMo和BERT于自己提出的模型上,有效果。

2. 很認真(苦力):

  • 我問了師姐,模型寫的很快,但是調出理想的參數大概就用了2-3個月。

發頂會應該就這兩點:前沿+認真!

加油,希望我和你也能來一篇。

推薦閱讀:

【一分鐘論文】 NAACL2019-使用感覺句法詞表示的句法增強神經機器翻譯

【一分鐘論文】Semi-supervised Sequence Learning半監督序列學習

詳解Transition-based Dependency parser基于轉移的依存句法解析器

經驗 | 初入NLP領域的一些小建議

學術 | 如何寫一篇合格的NLP論文

幹貨 | 那些高産的學者都是怎樣工作的?

一個簡單有效的聯合模型

近年來NLP在法律領域的相關研究工作