Motivation
資料稀疏問題、缺乏衡量單詞對語義關系的名額。
distributed word representations處理資料稀疏問題有優勢,深度學習模型在文本語義比對上取得進展。
使用 word embeddings 作為輸入
Gate relevance network捕捉單詞對之間的語義互動。
使用 Pooling layer選擇 資訊量最大的互動
模型架構
主要内容:
輸入為word embedding,通過RNN(BiLSTM)将文本段,編碼為其 位置表示
使用Gated relevance Network捕捉 位置表示 之間的語義互動
最後,生成的所有互動被傳入max pooling layer得到最強的互動。然後通過多層感覺機(MLP)聚合它們來預測篇章關系。
模型細節:
Embedding Layer:
輸入:單詞的one-hot representation
輸出:OOV word embedding
映射單詞為word embedding,padding所有text segments使之擁有相同的長度。
Sentence Modeling with LSTM:
輸入:variable-length S=(x0,..xT)(wt)
輸出:ht=[->,<-],即單詞在位置t和他的上下文資訊
操作:使用雙向LSTM,将單詞 w_t 轉換成 h_t。
Gated Relevance Network:
輸入:由上面計算出的位置表示.
輸出(兩個text segment):Interaction score matrix。
操作:
給定兩個text segments \(X = x_1, ..., x_n\) 和 \(Y = y_1, ..., y_m\),通過Bi-LSTM編碼,得到他們的位置表示 \(X_h = x_{h_1}, ..., x_{h_n}\) 和 \(Y_h = y_{h_1}, ..., y_{h_m}\).
計算 次元為 \(d_h\)的每個中間表示對 \(x_{h_i}\) 和 \(y_{h_j}\)之間的 relevance socre(相關性得分)。用GRN合并計算Relevance score的兩個模型。
Max-Pooling Layer and MLP:
輸入: Interaction score matrix
操作: max-pooling strategy來劃分評分矩陣成一組不重疊的子區域,每個子區域輸出最大值。Pooling scores組成的向量;并輸出到MLP(多層感覺機)
輸出: 分類任務輸出,不同類的機率
Model Trainning:
實驗
PDTB的不平衡樣本分布
四個二分類識别top level relations(EntRel融入Expansion中)
Training data:正例樣本數等于負例樣本數。
Baseline
LSTM + MSP
BiLSTM + MSP
Word + NTN
LSTM + NTN
BiLSTM + NTN
Word + GRN
LSTM + GRN
超參數設定
一方面,我們可以看到雙線性張量的每個切片負責一種類型的關系,具有2個切片的雙線性張量比原始雙線性模型更适合于訓練二進制分類器。另一方面,增加切片數量會增加模型的複雜度,進而使訓練更加困難。