論文解讀
這次分享的論文是:
http://hlt.suda.edu.cn/~zhli/papers/liying_ijcai19_dp.pdf

是由SUDA-HLT實驗室LA組的博士二年級學生李英發表在2019IJCAI上的一篇文章。
根據這個題目Self-attentive Biaffine Dependency Parsing你可能會想到經典的biaffine parser(不了解的點這個連結):
https://arxiv.org/pdf/1611.01734.pdf
和Transformer的Encoder:
https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
對,就是這樣的,可以說是強強聯合,将目前的parser SOTA模型(biaffine parser based bilstm)的提取特征層(bilstm)替換成self-attention(Transformer的Encoder層)來提取特征。效果和用bilstm的效果幾乎是一樣的:
LAS基本一樣,但是這篇文章新穎的點在哪裡呢?
1.第一次将self-attention使用在parser裡
2.獲得了和SOTA模型幾乎一樣的性能
3.同樣相似的效果但不同類型的encoder(bilstm和self-attention)ensemble起來效果會更好
4.驗證了最新的預訓練資料(ELMo和BERT)能夠提高parser的性能。
5.速度上,并行的self-attention肯定比bilstm要快。
總結
做個總結吧,ijcai是一類頂會,宏觀角度看這篇文章
1. 很前沿:
- 李英師姐用了目前最火的self-attention(Transformer的encoder)替換了我們一直使用的SOTA模型biaffine parser based bilstm 的 bilstm
- 使用了最新的預訓練模型ELMo和BERT于自己提出的模型上,有效果。
2. 很認真(苦力):
- 我問了師姐,模型寫的很快,但是調出理想的參數大概就用了2-3個月。
發頂會應該就這兩點:前沿+認真!
加油,希望我和你也能來一篇。
推薦閱讀:
【一分鐘論文】 NAACL2019-使用感覺句法詞表示的句法增強神經機器翻譯
【一分鐘論文】Semi-supervised Sequence Learning半監督序列學習
詳解Transition-based Dependency parser基于轉移的依存句法解析器
經驗 | 初入NLP領域的一些小建議
學術 | 如何寫一篇合格的NLP論文
幹貨 | 那些高産的學者都是怎樣工作的?
一個簡單有效的聯合模型
近年來NLP在法律領域的相關研究工作