原文連結:https://arxiv.org/pdf/1607.04423.pdf
本片論文主要講了Attention Model在完形填空類的閱讀了解上的應用。(以下是我的個人了解,如有錯誤,歡迎指正)
使用資料集:
1、CNN/Daliy Mail新聞資料集,将一整篇新聞文檔作為完形填空的文本(Document),然後将其新聞摘要中的一句話去掉一個詞之後作為查詢(Query),去掉的那個詞作為答案(Answer)。
2、Children’s Book Test(CBTest)兒童讀物資料集:前面連續的20句話作為Document,第21句話作為Query,去掉的一個詞為Answer。
Attention-over-Attention Model
(1) 首先,資料集可以表示為三元組的形式<D, Q, A>
(2)Contextual Embedding
将document 和 query中的每個單詞表示成one-hot的形式,然後引入一個共享的embedding矩陣We (個人認為也可以使用word2vec詞向量初始化,在後續的過程中參與神經網絡的訓練)
使用雙向RNN(GRU)表示文本的embedding,具體公式如下圖所示:
其中document 和query的文本embedding次元分别為
,其中|D|. |Q|分别表示document和query的長度
(2)權值矩陣
其中M(i,j)為document的第I個單詞向量和query的第j個單詞向量的點乘
(3)column-wise softmax
可以認為是query-to-document 的attention
(4)row-wise softmax
認為document-to-query的attention
(5)融合
(6)預測
Attention-over-Attention Model
N-best Re-ranking Strategy
在選擇答案的過程中可以選擇幾個候選答案,然後通過打分比較
打分标準:
1、全局n-gram 語言模型:使用全部訓練集為document打分
2、局部n-gram語言模型:使用驗證集為document打分
3、word-class 語言模型:word class 可以通過聚類獲得,使用全部訓練集為document打分