天天看點

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

Motivation

資料稀疏問題、缺乏衡量單詞對語義關系的名額。

distributed word representations處理資料稀疏問題有優勢,深度學習模型在文本語義比對上取得進展。

使用 word embeddings 作為輸入

Gate relevance network捕捉單詞對之間的語義互動。

使用 Pooling layer選擇 資訊量最大的互動

模型架構

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

主要内容:

輸入為word embedding,通過RNN(BiLSTM)将文本段,編碼為其 位置表示

使用Gated relevance Network捕捉 位置表示 之間的語義互動

最後,生成的所有互動被傳入max pooling layer得到最強的互動。然後通過多層感覺機(MLP)聚合它們來預測篇章關系。

模型細節:

Embedding Layer:

輸入:單詞的one-hot representation

輸出:OOV word embedding

映射單詞為word embedding,padding所有text segments使之擁有相同的長度。

Sentence Modeling with LSTM:

輸入:variable-length S=(x0,..xT)(wt)

輸出:ht=[->,<-],即單詞在位置t和他的上下文資訊

操作:使用雙向LSTM,将單詞 w_t 轉換成 h_t。

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)
論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

Gated Relevance Network:

輸入:由上面計算出的位置表示.

輸出(兩個text segment):Interaction score matrix。

操作:

給定兩個text segments \(X = x_1, ..., x_n\) 和 \(Y = y_1, ..., y_m\),通過Bi-LSTM編碼,得到他們的位置表示 \(X_h = x_{h_1}, ..., x_{h_n}\) 和 \(Y_h = y_{h_1}, ..., y_{h_m}\).

計算 次元為 \(d_h\)的每個中間表示對 \(x_{h_i}\) 和 \(y_{h_j}\)之間的 relevance socre(相關性得分)。用GRN合并計算Relevance score的兩個模型。

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)
論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

Max-Pooling Layer and MLP:

輸入: Interaction score matrix

操作: max-pooling strategy來劃分評分矩陣成一組不重疊的子區域,每個子區域輸出最大值。Pooling scores組成的向量;并輸出到MLP(多層感覺機)

輸出: 分類任務輸出,不同類的機率

Model Trainning:

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

實驗

PDTB的不平衡樣本分布

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

四個二分類識别top level relations(EntRel融入Expansion中)

Training data:正例樣本數等于負例樣本數。

Baseline

LSTM + MSP

BiLSTM + MSP

Word + NTN

LSTM + NTN

BiLSTM + NTN

Word + GRN

LSTM + GRN

超參數設定

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)
論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)
論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)
論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)

一方面,我們可以看到雙線性張量的每個切片負責一種類型的關系,具有2個切片的雙線性張量比原始雙線性模型更适合于訓練二進制分類器。另一方面,增加切片數量會增加模型的複雜度,進而使訓練更加困難。

論文閱讀(12)Implicit Discourse Relation Detection via a Deep Architecture with Gated Relevance Network(2016)