EMNLP 2019 | 哈工大劉挺團隊，基于事件背景知識進行 If-Then 類型常識推理

本文來自公衆号哈工大SCIR，AI科技評論獲授權轉載，如需轉載請聯系原公衆号。

原标題：賽爾原創 | EMNLP 2019 基于上下文感覺的變分自編碼器模組化事件背景知識進行If-Then類型常識推理。

論文名稱：Modeling Event Background for If-Then Commonsense Reasoning Using Context-aware Variational Autoencoder

論文作者：杜理，丁效，劉挺，李忠陽

原創作者：杜理，丁效

下載下傳連結：https://arxiv.org/abs/1909.08824

轉載須注明出處：哈工大SCIR

1.簡介

了解事件并推斷事件相關常識知識對于多種NLP任務具有重要意義。給定某一特定事件，人類可以輕易推斷出該事件的意圖、效應等，然而這類If-Then推理任務對于AI仍具相當挑戰性。針對此，研究者提出了一個If-Then類型事件常識推理資料集Atomic和基于RNN的Seq2Seq模型以進行此類推理。然而，同一事件可能對應多個意圖，基于RNN的Seq2Seq模型傾向于生成語義接近的答案。此外，學習事件背景知識将有助于了解事件并進行If-Then推理任務。為此，我們提出一個上下文感覺的變分自編碼器以學習事件背景知識并進行If-Then推理任務。實驗結果顯示相比于基線方法該方法能有效提高推理結果的準确性與多樣性。

2.動機

事件相關常識知識推理近年來日益受到研究者的關注。為此，Rashkin等人(2018)與Sap等人(2018)分别提出了事件相關If-Then類型推理資料集Event2Mind與Atomic。這兩個資料集關注于給定事件後，推斷事件的原因、結果等知識。同時他們還提出利用經典的基于RNN的Seq2Seq架構以進行此類推理。

然而If-Then推理問題仍存在兩個挑戰。首先，如圖1所示，給定某一事件，對于該事件的感受可能是多樣的。對于此類一對多生成問題，研究顯示，傳統基于RNN的Seq2Seq模型可能傾向于給出某些泛泛的回答(li等人,2016,; Serban等人,2016)。其次，生成合理答案需要建立在對事件背景知識的了解之上。如圖1所示，對事件“PersonX finds a job”的感受可能是多樣的。然而，在給定事件上下文“PersonX isfired”後，合理的感受将局限于"needy"或"Stressed out"。

為更好應對這兩個挑戰，我們提出了一個上下文感覺的變分自編碼器(context-aware variationalautoencoder, CWVAE)。基于變分自編碼器的方法被廣泛利用于提高一對多生成問題中模型生成的多樣性(Bowman等人,2015; Zhao等人, 2017)。在傳統變分自編碼器的基礎上，我們引入了一個額外的上下文感覺隐變量(Context aware latent variable)以學習事件背景知識。在預訓練階段，CWVAE在一個故事語料構成的輔助資料集上(包含豐富的事件背景知識)預訓練，以使用上下文感覺隐變量學習事件背景知識。随後，模型在Atomic/Event2Mind資料集上微調，以使得模型适應各個If-Then推斷目标(如事件意圖，事件效應等)。

EMNLP 2019 | 哈工大劉挺團隊，基于事件背景知識進行 If-Then 類型常識推理

圖1 If-Then推理問題的兩個挑戰同一事件可能使人産生多種感覺。背景知識有助于If-Then推斷過程。但是這一知識在資料集中并不存在。

3.背景

在介紹Atomic與EventMind資料集以及正式定義問題之前，為清晰起見，我們定義以下術語：

Base event：If-Then推理的前提事件，如圖1中的“PersonX finds a new job“。

Inference dimension：特定的If-Then推理類型，如事件意圖、事件效應。

Target：推理目标。如圖1所示，給定base event “PersonX finds a new job“和Inference dimension"XReact", Target可以是"needy"或"relieved"。注意同一base event可能對應多個 target。

Event2Mind資料集通過衆包形式建構，包含約25K條base event，以及300K target。表1展示了一個Event2Mind資料集中的例子。

表1 Event2Mind資料集中的一個例子。”x“和”o“分别指PersonX和others。

Atomic資料集相比于Event2Mind規模更大。表2展示了一個Atomic中的例子。盡管Atomic同時包含Event2Mind中的inference dimension，二者的base event并不完全相同。

表2 Atomic資料集中的一個例子。”x“和”o“分别指PersonX和others。

問題定義 If-Then推理問題可以定義為一個一對多的條件生成問題：給定base event

，和一個inference dimension

，模型需要生成target

并使其盡量接近于人工标注，其中

和

均由一系列詞構成。

4.上下文感覺的變分自編碼器(CWVAE)

本文将If-Then推理問題概括為[(background), event]-target關系，并利用CWVAE模組化這一關系。為實作這一目的，如圖2(a)所示，在CWVAE中，我們引入了一個上下文擷取隐變量(context-acquire latent variable)

用以直接擷取事件背景知識，和一個上下文感覺隐變量(context-aware latent variable)

用以從

處學習事件背景知識。因為Atomic與Event2Mind資料集中并不存在事件背景知識，我們設計了一個兩階段訓練過程：

預訓練：從輔助資料集上學習事件背景知識如圖3(a)所示，在預訓練階段，上下文擷取隐變量能夠直接擷取到有關于事件上下文

的知識。随後，通過最小化

與上下文感覺隐變量

之間的距離，事件背景知識得以從

傳遞至

。

微調：使學到的事件背景知識适應于每個Inference Dimension 如圖2(b)所示，在此階段，CWVAE在Atomic與Event2Mind的每個inference dimension上進行微調。進而，如圖2(c)所示，在推斷階段，給定事件後，CWVAE得以利用

中蘊含的有關于事件背景的知識生成targets。

圖2 CWVAE的預訓練、微調與生成過程

CWVAE的結構

圖3展示了CWVAE的具體結構。模型總體分為四部分：編碼器(Neural Encoder)将

與

編碼為向量表示，先驗網絡(Prior Network)模組化

與

，識别網絡(Recognition Network)模組化

，

與

，解碼器(Neural Decoder)則整

與

中蘊含的資訊以生成

。

圖3 CWVAE的具體結構

編碼器由雙向GRU構成，将上下文

, base event

與target

編碼至向量表示

, 與

。

識别網絡利用向量表示

模組化

。上述三個分布均為各向同性的高斯分布(換言之，協方差陣為對角陣)。

我們提出了一個基于注意力機制的推理子產品ABI(Attention Based Inferer)以估計上述分布的均值

和标準差

：

（1）

ABI的具體結構見下文。

先驗網絡利用

模組化

和

。上述兩分布同樣為各向同性的高斯分布。其均值與方差亦利用ABI估計：

（2）

解碼器給定

與

，解碼器以如下方式生成：

（3）

其

是前饋神經網絡。

是注意力機制中的上下文向量(context vector)，

是解碼器中的隐含狀态。我們按照Bahdanau等人(2014)的方式定義

和

。但隐含狀态

，其中

是

中第

個詞的詞嵌入向量。通過這種方式，在解碼過程中CWVAE能夠直接利用

中蘊含的事件背景知識。此外，

與

中的随機性可以增強生成的多樣性。

基于注意力機制的推斷器受Parikh等人(2016)的啟發，基于注意力機制，我們按以下方式計算

或

的均值與方差：給定兩個向量序列(如上下文與base event的表示 )

，

，我們首先利用互注意力機制(Parikh等人,2016)得到向量序列

與

的上下文向量序列

與

。随後，對于兩組上下文向量序列進行平均池化操作可得兩個向量

；

。

通過上述操作，

與

攜帶了序列

與序列

的語義互動資訊。在

與

的基礎上，通過下列操作，我們得到均值

與标準差

：

（4）

5. 實驗

5.1輔助資料集的建構

輔助資料集基于三個故事資料集建構：ROCStory(Mostafazadeh等人，2016), VIST(Huang等人,2016)，WritingPrompts(Fan等人, 2018)。我們将上述資料集中的每個故事分成長為5句話的子段落，并将每個子段落的前三句話定義為base event的上下文，第四句話定義為base event，第五句定義為target。表3給出了一個例子。

表3 輔助資料集的一個例子

5.2 評價名額

我們使用BLEU與困惑度作為衡量生成準确性的名額，利用distinct-1gram與distinct-2gram的數量作為衡量生成多樣性的名額(Li等人, 2017)。此外，我們還從生成的準确性，多樣性與流暢性三個角度對模型進行了人工評價。

表4 (a) Event2Mind資料集上的perplexity與BLEU score;

(b) Event2Mind資料集上的distinct-1與distinct-2

表5 Atomic資料集上的perplexity與BLEU score

表6 Atomic資料集上的distinct-1與distinct-2

5.3 整體結果

表4--6展示了CWVAE與基線方法在Event2Mind與Atomic上的BLEU與困惑度，以及distinct-1與distinct-2名額。從中可以觀察得出：

通過将基于變分的Variational Seq2Seq，VRNMT， CWVAE-unpretrained以及 CWVAE與其他基于RNN Seq2Seq的模型發現，基于變分法的模型生成的多樣性總體而言高于其他基于RNN Seq2Seq的模型。這确認了采用基于變分的模型提高生成多樣性的合理性。
通過将CWVAE-unpretrained與其他基線模型對比發現，總體而言CWVAE-unpretrained在兩個資料集上均表現出了較好的準确性與多樣性。這顯示了CWVAE在捕獲target的潛在語義分布、生成合理推理結果上的能力。
将CWVAE-unpretrained與CWVAE對比發現，總體而言預訓練能夠提高模型在準确性與多樣性兩方面上的表現。這是由于，事件背景知識能夠指導推理過程。而通過預訓練，模型能夠學到事件背景知識。

人工評價結果見表7。總體而言，在兩個資料集上，CWVAE也表現出了較好的準确性，多樣性與一緻性。

表7 (a)Event2Mind資料集上的人工評價結果; (b)Atomic資料集上的人工評價結果

6. 總結

針對If-Then推理問題，本文提出了一個上下文感覺的變分自編碼器(CWVAE)和一個兩階段的訓練過程。利用額外的上下文感覺隐變量，CWVAE得以學習事件背景知識，并利用這種知識指導If-Then推理過程。通過兩階段訓練過程中的預訓練階段，CWVAE學習事件背景知識。在随後的微調階段，使得學到的背景知識适應于各類推理目标。實驗結果顯示CWVAE在兩個資料集上均表現出了較高的準确性與多樣性。