天天看點

Reasoning about Entailment with Neural Attention-學習筆記

Reasoning about Entailment with Neural Attention

  1. LSTM可以學習豐富的語句表示,這些語句适合于确定文本含義。LSTM神經網絡很适用于文本蘊含類的任務。
  2. 針對識别文本蘊含(RTE)任務提出了一個帶有注意力的神經網絡。文中的模型能夠處理以前提為條件的假設來推理詞與詞,短語與短語之間的蘊含關系。
  3. 文中的整個模型的架構:
    Reasoning about Entailment with Neural Attention-學習筆記
    使用兩個LSTMs(A)識别文本蘊涵,一個在premise上,一個在hypothesis上,以及注意僅基于最後輸出向量(h9,B)或逐字注意基于假設所有輸出向量(h7,h8和h9,C)。
  4. word2vec vectors其實就是簡單化的神經網絡,在[1]中使用了word2vec向量作為字元向量的初始,但并沒有在訓練時進行優化。https://arxiv.org/pdf/1509.06664v1.pdf
  5. 使用線性層把詞向量映射到LSTM的隐藏層大小的次元,形成輸入量x_i。
  6. 使用softmax層對輸出向量的非線性映射的輸出進行分類(導緻,不相幹,沖突),使用交叉熵進行訓練。
  7. 擁有注意力的LSTM RTE模型不需要掌握細胞狀态的premise整個語義含義。
  8. 為了确定一個句子是否蘊含另一個句子,最好的方法就是檢查每個詞和短語對的蘊含或沖突的關系。
  9. Word-by-word的attention機制,與基本的attention模型不同的是,不是用注意力來生成單詞,而是通過在前提和假設中對單詞和短語進行軟對齊,從細粒度的推理中獲得一個句子對編碼。該模型可以生成一個權重矩陣,這時候計算權重并不是使用前LSTM的末态,而是使用前者的全部隐藏輸出。進而建立起兩個文本序列之間的關系。
  10. 加了two-way attention的效果并沒有更好,反而更差。[1]分析認為是因為用了相同的參數來做two-way可能會給訓練帶來更多的影響,所有效果不好。

繼續閱讀