基于注意力機制優化的生成式文檔摘要模型

本文收錄于EMNLP 2019，oral 短文。

背景

在網際網路時代，各個領域場景産生越來越多的文本資料，文本摘要作為文本“降維”處理的重要手段，旨在将文本或者文本集合轉換成包含關鍵資訊的簡短摘要。該任務方法主要分為兩大類：抽取式摘要和生成式摘要。抽取式摘要方法從源文檔中抽取關鍵句或者關鍵詞組成摘要，摘要内容全部來自原文，這種方法比較簡單直接，但是做法和人類總結概括文章的方法技巧相差甚遠，同時也面臨coherence等問題。随着sequence2sequence模型的出現和發展，生成式摘要模型相關研究也吸引了衆多學者的目光。生成式摘要模型顧名思義，就是從源文檔生成摘要，摘要中的詞可能在原文中并不存在。這一大類方法更接近于人類的摘要方法，得到的摘要一般較為通順，但是也存在諸多問題，如repetition、saliency、incorrect fact等。當然文本生成任務本身就具有較大難度，我們期待未來有一天計算機能夠像人類一樣會寫作表達，可以寫出高品質的自然語言文本。

本文聚焦于優化摘要模型中的注意力機制，注意力機制最早是應用于圖像領域，大概是九幾年就提出來的思想。在2014年，Google Mind團隊發表的《Recurrent Models of Visual Attention》[1]一文使得注意力機制開始火了起來，該論文提出在RNN模型上使用Attention機制來進行圖像分類，結果取得了很好的性能。随後，在Bahdanau等人發表論文《Neural Machine Translation by Jointly Learning to Align and Translate》[2]中提出在機器翻譯任務上使用注意力機制将翻譯和對齊同時進行，他們的工作是第一個将注意力機制應用在NLP領域中的。最近兩年self attention也是很火熱，各項記錄不斷被重新整理。

在文檔摘要任務中，注意力機制也是被廣泛使用。但是當輸入時長文檔的時候，基礎的注意力機制容易注意力分散，很難捕捉到那些重要的資訊，是以有一些工作緻力于解決這個問題，我們的工作也是沿着這個研究線探索注意力機制的優化。

模型

Pointer-generator模型

本文将pointer-generator模型[3]作為baseline模型，該模型采用指針網絡增強标準的基于注意力機制的seq2seq模型，這個組合在之後也是被很多的學者借鑒使用。

源文檔首先輸入到一個Bi-LSTM的編碼器中得到文檔的向量表示，之後一個uni-directional LSTM的解碼器逐詞輸出摘要，指針網絡控制輸出是copy自原文還是從字典生成得到的。在每個解碼時間步，注意力分布a_t計算方式如下：

local optimization

（1）注意力精煉單元

就人類而言閱讀總結一篇長文檔也是很困難的一件事，在将要寫下一個詞的時候有時也會有些不确定。為了确定目前時刻要寫的詞是什麼以及和前面已經寫過的内容是否相關，很多人都會确認一下原文内容和已經寫過的内容，然後調整目前時刻關注内容。這樣的閱讀習慣可以定義為以下計算，我們命名這樣的功能塊叫做注意力精煉單元。

（2）局部注意力方差損失函數

大部分的注意力機制都是“soft”的，注意力分散在輸入的各個位置。直覺上來講，如果一個學生能夠在概括文章寫每個字的時候都很明确自己要寫哪一部分的内容，那麼經過反複訓練之後他一定可以寫出文章包含文章中心思想的概括，而不會在寫作過程中注意力渙散不知道從哪兒下筆。和soft attention對應的hard attention就是會把注意力放在某個位置上，每一步都很明确自己的關注點。一些研究表明訓練好hard attention傾向于取得更加準确的結果4，但是hard attention計算不可微較難訓練。是以為了兼顧hard attention的好效果和soft attention的端到端易訓練的特點，我們提出了局部方差損失函數，激勵模型将注意力放在極少部分輸入位置上，明确目前時刻的關注内容。

通過觀察我們發現，當注意力權重分散在各個位置的時候，注意力分布相對于集中注意力的時候的形狀要來的平坦些。從數學上來說，相對平坦的分布它的方差相對來說也是較小的。借鑒資料上的方差概念，我們認為一個好的注意力分布形狀應該是尖銳的（少數位置值較大），也就是說方差是比較大的。是以，局部方差損失函數定義如下：

global optimization

為了解決摘要中常見的重複問題，我們提出了另外一個基于方差的損失函數——全局方差損失函數。理想情況下，同一個位置不應該被反複賦予較高注意力權重，也就是說某位置除去某個時刻賦予的一個較高權重外，其他時刻賦予的注意力應該都比較小或者沒有。比較有名的coverage機制會記錄目前時刻前的所有時刻的注意力分布總和，并加入到注意力分布的計算中，但是這種方法可能會引入一些錯誤的監督資訊。當之前的某個時刻錯誤将注意力放在了某位置上，coverage機制會阻礙後續步驟正确的給與該位置較高注意力。我們直接設計了全局角度的損失函數防止重複并避免這種情況，在理想情況下所有解碼時間步的注意力分布總和去掉每個位置曆史最大注意力值組成的分布應該是一個全部為0的分布，也就是說方差是0。從下圖可以看出，當某個位置反複給與較大注意力權重的時候（會導緻重複問題），該位置的注意力總和和曆史最大注意力權重之間的內插補點是比較大的，內插補點分布整體是比較尖銳的，方差相對來說也比較大。

是以，全局方差損失函數設計如下：

模型訓練

本文模型分兩個階段訓練，先訓練基礎的pointer-generator模型至收斂，訓練的目标函數是：

finetune階段加入本文的兩個損失函數繼續訓練至收斂：

實驗

資料集和評價名額

實驗主要在公開摘要資料集CNN/Daily Mail上進行，資料集包括287226對訓練資料、13368對驗證資料、11490對測試資料。評價名額采用ROUGE系列和METEOR。

實驗配置

• hidden_dim & embedding_dim： 256

• 優化器：adagrad

• batch_size: 64

• learning rate: 0.15

實驗結果

在CNN/Daily Mail資料集上實驗效果如下，相對于baseline模型PGN，本文模型有較大提升（3.85, 2.1 and 3.37 in terms of R-1, R-2 and R-L respectively）。本文模型沒有超過當當時效果最好的幾個模型，

FastAbs[6]将ROUGE-L作為強化學習的reward函數，這帶來了巨大的性能提升。 DCA[7]提出了具有增強功能的深層通訊器，并在CNN/Daily Mail上取得了最佳效果。盡管我們的實驗結果并未優于最新模型，但我們的模型結構卻參數少，簡單可移植，是一次注意力機制優化的探索，

人工評測

我們還對生成的摘要進行人工評估，我們從CNN/Daily Mail資料集的測試集中随機選擇了100個樣本，并要求3名人類測試人員測量每個摘要的相關性和可讀性（打分從1-5，1最差，5最好）。相關性基于摘要包含的重要資訊，而可讀性則取決于摘要的流利程度和文法。以下為評測結果，從表中可以看出我們的模型在relevance得分上要高于baseline模型，也說明了模型可以更好的捕捉重要内容。

global optimization的有效性

從下圖可以看出，重複的n-grams比率有較大降低，資料接近reference。

case study

此外，我們在表3中顯示了由我們的模型和基準模型生成的摘要的示例。從表中可以看出，PGN遭受重複的困擾，而且無法獲得重要資訊。盡管采用coverage機制解決了saliency和repetition問題，但它的結果包含一些瑣碎的事實。使用注意力精煉單元（ARU），該模型成功地将注意力集中在重要資訊上，但是，它也存在嚴重的重複問題。通過方差損失函數進一步優化，我們的模型可以避免重複，并且包含重點資訊。此外，與PGN + Coverage模型相比，我們生成的摘要包含的瑣碎資訊更少。

未來工作

在本文中，我們提出了一種簡單而有效的方法來優化摘要文檔摘要中的基礎注意機制，在CNN/Daily Mail資料集上的結果證明了我們方法的有效性。我們認為，這些簡單的方法也适用于其他摘要模型。對此的進一步探索以及與RL等其他方法的結合仍然是我們未來的一個研究方向。

參考文獻

[1] Mnih, Volodymyr, Hees, Nicolas, Graves, Alex, and Kavukcuoglu, Koray. Recurrent models of visual attention. In NIPS, 2014.

[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473.

[3] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer- generator networks. In Proceedings of the 55th An- nual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073– 1083. Association for Computational Linguistics.

[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio. 2015. Show, attend and tell: Neural image caption generation with visual attention. In Proceedings of the 32nd In- ternational Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015, pages 2048– 2057.

[5] Shiv Shankar, Siddhant Garg, and Sunita Sarawagi. 2018. Surprisingly easy hard-attention for sequence to sequence learning. In Proceedings of the 2018 Conference on Empirical Methods in Natural Lan- guage Processing, Brussels, Belgium, October 31 - November 4, 2018, pages 640–645.

[6] Yen-Chun Chen and Mohit Bansal. 2018. Fast abstrac- tive summarization with reinforce-selected sentence rewriting. In Proceedings of the 56th Annual Meet- ing of the Association for Computational Linguistics (Volume 1: Long Papers), pages 675–686. Associa- tion for Computational Linguistics.

[7] Asli Celikyilmaz, Antoine Bosselut, Xiaodong He, and Yejin Choi. 2018. Deep communicating agents for abstractive summarization. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Hu- man Language Technologies, Volume 1 (Long Pa- pers), pages 1662–1675. Association for Computa- tional Linguistics.

基于注意力機制優化的生成式文檔摘要模型

背景

模型

實驗

未來工作

參考文獻

繼續閱讀

傳統的seq2seq模型與seq2seq with attention的模型原理細節解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()參數的了解nn.Embedding()

pytorch中nn.RNN()總結

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

K-近鄰算法以及圖像分類應用

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合