
題目: OntoED: Low-resource Event Detection with Ontology Embedding
論文連結: https://arxiv.org/abs/2105.10922
論文代碼:https://github.com/231sm/Reasoning_In_EE
論文
什麼原型? Prototypical networks for few-shot learning. 論文
可以替代Instance Encoder:
Meta-learning with dynamic-memory-based prototypical network for few-shot event detection.
Edge-enhanced graph convolution networks for event detection with syntactic relation
創新
本體嵌入,這裡的本體指的是? 是不是指的是包含了事件類型,事件的屬性?
摘要
存在的問題:
Event Detection(ED)事件檢測的目的是從給定的文本中識别事件觸發詞,并将其分類為事件類型。
目前大多數ED方法嚴重依賴訓練執行個體,幾乎忽略了事件類型的相關性。是以,它們往往會遭受資料短缺的困擾,并且無法處理新的不可見的事件類型。
我們的方法:
我們将ED描述為一個事件本體的生成過程: 将
事件執行個體
與事件本體中預定義的
事件類型
連接配接起來,并提出了一個具有本體嵌入的新的ED架構OntoED。
我們利用事件類型之間的關聯來豐富事件本體,并進一步誘發更多的
事件-事件關聯
。
基于事件本體,OntoED可以利用和傳播相關知識,特别是從資料豐富的事件類型和資料貧乏的事件類型。
此外,通過建立連結的存在, OntoED可以被應用到新的看不見的事件類型。
ED是從非結構化資料中提取結構化資訊。
比如:Jack is married to the Iraqi microbiologist known as Dr . Germ.
ED模型應該将事件類型辨別為“Marry”,其中單詞“married”觸發了事件。
作為一個重要的任務,ED面臨着資源不足問題。一方面,在ED benchmark資料庫(e.g.,FewEvent and MAVEN)中面臨着資料分布不均問題。 比如上面的圖中,兩種事件類型Attack 和 Riot(4816&30)。 這樣的話,沒有充足的資料容易出現過拟合。
第二種便是新類型的加入,不能總是重新訓練模型。
過去的方法:
Huang等人給ED帶來了新的方法,比如通過将提到的每個事件映射到目标事件本體中的特定類型,它可以從很少看到的事件類型訓練,然後将知識轉移到新的未見的事件類型。
然而,這裡的事件本體隻考慮每個事件提及和事件類型的内部結構。
在本文中,我們用更多事件類型的内部結構來豐富事件本體,如時間、因果和層次 事件-事件關系。比如上圖中, A t t a c k ⟶ C A U S E S e n t e n c e Attack\overset{CAUSE}{\longrightarrow} Sentence Attack⟶CAUSESentence、 S e n t e n c e ⟶ B E F O R E A c q u i t Sentence\overset{BEFORE}{\longrightarrow} Acquit Sentence⟶BEFOREAcquit、 A t t a c k ⟶ C o S U P E R R i o t Attack\overset{CoSUPER}{\longrightarrow} Riot Attack⟶CoSUPERRiot。 我們的主要目的是充分利用事件本體,并利用從資料豐富的事件類型(例如,Attack)到資料貧乏的事件類型(例如,Sentence,AcquitandRiot)的相關知識。此外,新的事件類型(即be - born)可以通過現有事件類型(即損傷)的相關性(即COSUPER)來學習。
3 Methodology
3.1 Problem Formulation
我們将事件監測任務當成事件本體群的疊代更新過程。
給定事件本體 O \mathcal{O} O,事件類型集合 E = e i ∣ i ∈ [ 1 , N e ] \mathcal{E} = {e_i|i\in[1, N_e]} E=ei∣i∈[1,Ne],語料庫 T = X i ∣ i ∈ [ 1 , K ] T={X_i|i\in[1,K]} T=Xi∣i∈[1,K]包含了K個執行個體;
事件本體群的目标是在事件類型和執行個體之間建立适當的聯系。
具體而言,每個在 T T T中的執行個體 X i X_i Xi被标記為token sequence X i = { x i j ∣ j ∈ [ 1 , L ] } X_{i}=\left\{x_{i}^{j} \mid j \in[1, L]\right\} Xi={xij∣j∈[1,L]},長度最大為 L L L,其中事件觸發器 x i t x_i^t xit被标記了。
我們期望預測index t ( 1 ≤ t ≤ L ) (1 \le t \le L) (1≤t≤L)和為每個執行個體事件标簽 e i e_i ei
此外,我們利用了一個多方面的事件-事件關系集 R = R H ⊔ R T ⊔ R C \mathcal{R}=\mathcal{R}_{H} \sqcup \mathcal{R}_{T} \sqcup \mathcal{R}_{C} R=RH⊔RT⊔RC用于事件本體群體和學習。
其中, R H = { SUBSUPER, SUPERSUB, COSUPER 1 } \mathcal{R}_H= \left\{\text { SUBSUPER, SUPERSUB, COSUPER }^{1}\right\} RH={ SUBSUPER, SUPERSUB, COSUPER 1}表示在子事件關系提取任務中定義的一組關系标簽。 R T = { BEFORE,AFTER,EQUAL 2 } \mathcal{R}_T= \left\{\text { BEFORE,AFTER,EQUAL}^{2}\right\} RT={ BEFORE,AFTER,EQUAL2}表示一組時間關系; R C = { CAUSE,CAUSEDBY } \mathcal{R}_C= \left\{\text { CAUSE,CAUSEDBY}\right\} RC={ CAUSE,CAUSEDBY}表示一組因果關系。
3.2 Model Overview
在本文中,我們提出了一個通用架構OntoED3個子產品:(1)事件檢測(本體群體),(2)事件本體學習,(3)事件關聯推理。圖2顯示了這三個子產品的關鍵思想。
事件監測是為了每個執行個體識别觸發器和類型;
事件本地學習基于執行個體派生的事件類型之間的關系,獲得嵌入事件原型關聯的事件本體。
事件關聯推理尋求在已有事件-事件關系的基礎上推斷出新的事件關聯,進而獲得一個堅實的事件本體。
3.3 Event Detection (Ontology Population)
ED的輸入是事件類型 E \mathcal{E} E和粗糙資料集 T T T。
Instance Encoder. 給定token sequence X i = { x i 1 , . . . , x i L } X_i = \left \{x_i^1,...,x_i^L \right \} Xi={xi1,...,xiL}和觸發詞 x i t , x_i^t, xit,利用預訓練模型BERT得到觸發詞 x i t x_i^t xit的上下文表示 X i t \mathbf {X}_i^t Xit,[CLS]标志位表示執行個體embedding。 這裡的Encoder是可以被其它模型替代的!
Class Encoder. 事件類型表示為事件原型(prototypes),因為它被證明是低資源的ED的健壯性。
最初,由于事件類型和其它類型還沒有關系,是以原型是通過計算執行個體的平均值得到的。
Event Detector. 将序列中的每個token視為一個候選觸發詞,然後計算候選觸發詞的對應事件類型的機率,并利用交叉熵損失函數計算損失
Instance Relation Extractor. 對于每個執行個體對 ( X i , X j ) \left ( X_i,X_j \right ) (Xi,Xj) ,我們采用了一種綜合的方法來模組化嵌入互動,表示為: X i j p = [ X i , X j , X i ⊙ X j , X i − X j ] \boldsymbol{X}_{i j}^{p}=\left[\boldsymbol{X}_{i}, \boldsymbol{X}_{j}, \boldsymbol{X}_{i} \odot \boldsymbol{X}_{j}, \boldsymbol{X}_{i}-\right.\boldsymbol{X}_{j}] Xijp=[Xi,Xj,Xi⊙Xj,Xi−Xj],其中 [ ⋅ , ⋅ ] [·, ·] [⋅,⋅]表明了向量concat,而 ⊙ \odot ⊙表示的是元素級别的Hadamard product。
之後用softmax對 ( X i , X j ) \left ( X_i,X_j \right ) (Xi,Xj)的關系分類,交叉熵損失函數計算損失。
也就是三種類别!
整個的損失如下:
3.4 Event Ontology Learning
Ontology Completion:模組化事件執行個體與類型之間關系和事件類型之間的關系
我們完成事件本體 O \mathcal{O} O的建立,用事件的内部和外部結構, 我們規範地連結事件執行個體 T T T和事件類型 E \mathcal{E} E。
Instance-to-class Linking: 給定一個句子 S i S_i Si(形式化為标記序列 X i X_i Xi),使用的是事件執行個體的一個觸發器 x i t x_i^t xit,我們将這些資訊連結到相應的事件類型 e i e_i ei上,用規範化的三元組: ( S i , t r i g g e r I s , x i t ) (S_i,triggerIs,x_i^t) (Si,triggerIs,xit)和 ( S i , i n s t a n c e O f , e i ) (S_i,instanceOf,e_i) (Si,instanceOf,ei)
Class-to-class Linking.: 給定一個有關系 r r r的事件執行個體對 ( X i , X j ) (X_i, X_j) (Xi,Xj),我們将執行個體相關性更新為相應的事件類型,标記為 ( e i , r e j ) (e_i,re_j) (ei,rej),除此之外,我們連結每個事件的子類和它相應父類,具有子超關系(SUPERSUB反向),我們将每個具有相同超類型的事件子類型對連接配接到一個COSUPER關系上。
Ontology Embedding:我們表示事件本體,考慮每個事件類型的執行個體和關聯。具體而言,給定一個三元組 l = ( e h , r , e t ) ∈ O l=(e_h,r,e_t)\in \mathcal{O} l=(eh,r,et)∈O,我們用關系變換矩陣 M r ∈ R d × d M_r∈R^{d×d} Mr∈Rd×d傳播有着頭部事件類型 e h e_h eh的原型 P h P_h Ph到有着尾部事件類型 e t e_t et的原型 P t P_t Pt。我們選擇一個矩陣來嵌入 r r r,它對低資源場景下的模型關系顯示出很大的魯棒性(Zhang et al.,2019)。然後通過聚合所有頭事件類型的傳播:
其中 O l \mathcal{O}_l Ol是在 O \mathcal{O} O的所有的一階跳的 e t e_t et的鄰居三元組。
在 l l l的 e t e_t et的原型 P t P_t Pt在傳播後是帶有權重 λ \lambda λ的 P t P_t Pt和 P t ∗ P_t^* Pt∗的一個權重平均
我們計算的可能性是 r r r是 e h e_h eh和 e t e_t et的關系的可能性,使用的是 ( e h , r , e t ) (e_h, r, e_t) (eh,r,et)的真值。
ϕ ( e h , r , e t ) = sim ( P h M r , P t ) = σ ( P h ⊤ M r P t ) \phi\left(e_{h}, r, e_{t}\right)=\operatorname{sim}\left(\boldsymbol{P}_{h} \boldsymbol{M}_{r}, \boldsymbol{P}_{t}\right)=\sigma\left(\boldsymbol{P}_{h}^{\top} \boldsymbol{M}_{r} \boldsymbol{P}_{t}\right) ϕ(eh,r,et)=sim(PhMr,Pt)=σ(Ph⊤MrPt)
總的來說,事件本體學習的損失函數定義為:
其中 y y y表明了 ( e h , e t ) (e_h,e_t) (eh,et)的真實标簽。
3.5 Event Correlation Inference
給出了具有事件類型間關聯的事件本體,在已有事件關聯的基礎上推斷出新的事件關聯。
具體地說,我們利用grouding g g g來推斷出新的事件相關三元組,可以概括為如下形式:
其中right side event triples ( e h k , r k , e t k ) ∈ O (e_h^k,r^k,e_t^k)\in \mathcal{O} (ehk,rk,etk)∈O,而 ( e h I , r I , e t I ) ∉ O (e_h^I,r^I,e_t^I)\notin \mathcal{O} (ehI,rI,etI)∈/O
為了計算接地的真值 g g g,我們選擇在OWL2 Web Ontology Language中定義的關系的三個對象屬性(OP): subOP,inverseOP, andtransitiveOP,然後從線性映射的假設中學習關系矩陣。 【Wang et al.(2020a);Ning et al.(2018)】已經定義了一些事件對之間關系的合取限制,我們将它們轉換為對象屬性公理,如表2所示。
假定 M r † and M r ‡ M_{r}^{\dagger} \text { and } M_{r}^{\ddagger} Mr† and Mr‡表明了公式9中左右的關系集合。 他們是矩陣或者是一個矩陣或者兩個矩陣的乘積。
由于關系限制是由理想線性映射假設推導而來(表1第三列), M r † and M r ‡ M_{r}^{\dagger} \text { and } M_{r}^{\ddagger} Mr† and Mr‡通常是不相等的,但在訓練中是相似的。是以, g g g的歸一化真值 F p \mathcal{F}_p Fp可以通過關系限制((表1第四列))來計算:
新事件相關推理的損失函數定義為:
整體而言,OntoED的最終損失函數表示為:
Experiments
提出一個資料集OntoEvent,資料集對比:
實驗對比: