DialogueGCN: 一種用于會話情感識别的圖形卷積神經網絡
DialogueGCN: A Graph Convolutional Neural Network for
Emotion Recognition in Conversation
語言環境模組化的重要性,序列模型現有缺點是還是遺忘問題,從圖的方面,改進了序列模型的缺點
0. Abstract
對話情感識别(Emotion recognition in conversation (ERC))。本文提出對話圖卷積網絡,一種基于圖神經網絡的ERC方法。我們利用談話者自身和說話者之間的依賴性來為情感識别模組化對話環境。DGCN來解決RNN模型上下文傳播問題。
1. Introduction
ERC在情感對話系統中也很重要(如圖1所示),在情感對話系統中,機器人了解使用者的情緒和情感,以産生情感連貫和感同身受的反應。
最近關于ERC的工作用遞歸神經網絡按順序處理對話的組成話語(RNN)。這樣的scheme在圖2中示出(茯苓等人,2019b),其依賴于向話語傳播上下文和順序資訊。然而,像大多數目前的模型一樣,我們也忽略了意圖模組化、主題和個性,因為在基準資料集中缺乏對這些方面的标記。

為了緩解RNN現有缺點,現在的模型帶入了注意力機制,當時沒有考慮話語的說話者資訊和來自目标話語的其他話語的相對位置。說話人資訊對于建立說話人之間的依賴關系是必要的,這使得模型能夠了解說話人如何強迫其他說話人的情緒變化。類似地,通過延伸,說話者内部或自我依賴幫助模型了解個體說話者的情緒慣性,其中說話者抵抗外部影響而改變他們自己的情緒。同樣,通過延伸,說話者内部或自我依賴有助于模型了解個體說話者的情緒慣性,其中說話者抵抗外部影響對其自身情緒的改變。另一方面,考慮目标話語和語境話語的相對位置決定了過去話語如何影響未來話語,反之亦然。雖然過去的話語影響未來的話語是自然的,但反過來可能有助于模型填充一些相關的缺失資訊,這些資訊是說話者背景知識的一部分,但在未來的對話中會明确出現。過去的消息填補空缺,作為說話者背景一部分,我們通過使用有向圖模組化對話來利用這兩個因素。
圖中的節點代表單個的話語。一對節點/話語(nodes/utterances)之間的邊表示這些話語的說話者之間的依賴性,以及它們在對話中的相對位置。
第二節簡要論述了有關ERC的相關著作;第三節闡述了方法;第4節展示了實驗;第5節展示并解釋了實驗結果;最後,第六部分對論文進行了總結。
2. Related Work
略
3. Methodology
對話中情感識别最突出的政策之一是語境模組化。兩種主要的語境類型——sequential context和speaker-level context。根據 Poria et al. (2017), ,我們通過相鄰話語,每個目标話語,對這兩種類型的語境進行模組化。
語境的計算模組化也應該考慮對話中對話者的情感動态。在雙向和多方對話系統中,情感動态通常受到兩個主要因素的影響——種間依賴(inter-speaker dependency)和自我依賴(self-dependency)。種間依賴是指對方在說話者身上産生的情感影響。這種依賴性與這樣一個事實密切相關,即說話者傾向于在對話過程中模仿對方來建立融洽的關系。然而,必須考慮到,不是所有的參與者都會以同樣的方式影響演講者。每個參與者通常以獨特的方式影響其他參與者。相比之下,自我依賴或情感惰性(emotional inertia)是指說話者在談話中對自己的情感影響。參與者對話由于他們的情緒慣性,很可能會堅持自己的情緒狀态,除非對方要求改變。是以,就對話中的情感動态而言,說話者之間的依賴和自我依賴之間總是存在着重要的互相作用。我們推測,結合這兩種不同但相關的上下文資訊方案(順序編碼和說話者級别編碼)将建立增強的上下文表示,進而更好地了解會話系統中的情感動态。
我們推測,結合這兩種不同但相關的上下文資訊方案(順序編碼和說話者級别編碼)将建立增強的上下文表示,進而更好地了解會話系統中的情感動态。
3.1 Problem Definition
交談中,M個發言者 p 1 , p 2 , . . . , p M p_1, p_2, ..., p_M p1,p2,...,pM,任務是預測組成交談 u 1 , u 2 , . . . , u N u_1,u_2,...,u_N u1,u2,...,uN情感标簽(快樂、悲傷、中立、憤怒、興奮、沮喪、厭惡和恐懼) u i u_i ui是被 p s ( u i ) p_{s(u_i)} ps(ui)發出,而s是話語和其對應說話者的索引之間的映射。 u i ∈ R D m u_i \in R^{Dm} ui∈RDm,使用下面描述的特征提取過程獲得
3.2 Context Independent Utterance-Level Feature Extraction
上下文無關的話語級特征提取
CNN從交談中抽取文本特征, 單層CNN+max-pooling+全連接配接層。輸入是300維GloVe,我們使用大小為3、4和5的過濾器,每個過濾器包含50個feature maps。卷積的特征max-pooled視窗大小2,ReLU。然後将它們連接配接在一起,送入一個100維的全連接配接層,其激活形成話語的表示。這個網絡是用情感标簽在話語層面上訓練的。
3.3 Model
Sequential Context Encoder, Speaker-Level Context Encoder,和 **Emotion Classifier.**架構圖如3
3.3.1 Sequential Context Encoder
因為,對話本質上是連續的,語境資訊沿着這個順序流動。我們将對話回報給GRU,以擷取以下上下文資訊: g i = ↔ G R U S ( g i ( + , − ) 1 , u i ) g_i=\leftrightarrow{GRU}_S(g_{i(+,-)1, u_i}) gi=↔GRUS(gi(+,−)1,ui),對應 i = 1 , 2 , . . . . , N i=1,2,....,N i=1,2,....,N, u i u_i ui和 g i g_i gi分别是上下文無關的和順序的上下文感覺話語表示。
因為不管說話者是誰,都要對話語進行編碼,是以與現有技術DialogueRNN相反,這種初始編碼方案是說話者不可知的,
3.3.2 Speaker-Level Context Encoder
我們以圖形網絡的形式提出了Speaker-Level 上下文編碼器子產品,以捕獲會話中依賴于說話者的上下文資訊。有效地模拟說話人層面的語境需要捕捉參與者之間的互相依賴(inter-dependency)和自我依賴(self-dependency)。我們從順序編碼的話語中設計一個有向圖來捕捉參與者之間的這種互動。此外,我們提出了一個基于局部鄰域的卷積特征變換過程,以建立豐富的speaker-level上下文編碼特征。架構在此詳述。
首先:引入以下符号,具有N個話語的對話被表示為有向圖 G = ( V , E , R , W ) G=(V, E, R, W) G=(V,E,R,W),節點/頂點 v i ∈ V v_i \in V vi∈V,邊标記(關系) r i j ∈ E r_{ij} \in E rij∈E, r ∈ R r \in R r∈R是邊 v i , v j v_i, v_j vi,vj的類型, a i j ∈ W a_{ij} \in W aij∈W是邊的權重, i , j ∈ [ 1 , 2 , . . . , N ] i, j \in [1,2,...,N] i,j∈[1,2,...,N]
Graph Construction該圖由以下方式的話語構成
Vertices: 每個話語表示為在圖中向量 v i ∈ V v_i\in V vi∈V,每個頂點 v i v_i vi用相應的順序編碼的特征向量初始化 g i , i ∈ [ 1 , 2 , . . . , N ] . g_i,i\in[1,2,...,N]. gi,i∈[1,2,...,N].我們把這個向量稱為頂點特征。當基于鄰域的變換過程被應用于編碼 speaker-level級别的上下文時,頂點特征會在下遊發生變化。
Edges:邊E的構造取決于要模組化的上下文。例如,如果我們假設每個話語(頂點)在語境上依賴于對話中的所有其他話語(當編碼speaker level級别資訊時)那麼就可以構造一個完全連通的圖。也就是說,每個頂點都通過一條邊與所有其他頂點(包括其自身)相連。然而,這導緻邊緣的數量為 O ( N 2 ) O(N^2) O(N2),這對于具有大量頂點的圖來說在計算上非常昂貴。
一個更實際的解決方案是通過保持過去的上下文視窗大小為 p p p和未來的上下文視窗大小為 f f f來構造邊。在這種情況下, v i v_i vi有 v i − 1 , v i − 2 , . . . , v i − p . v i + 1 , . . . , v i + f v_{i-1},v_{i-2},...,v_{i-p} . v_{i+1}, ...,v_{i+f} vi−1,vi−2,...,vi−p.vi+1,...,vi+f
對于本文中的所有實驗,我們考慮過去的上下文視窗大小為10,未來的上下文視窗大小為10
因為圖形是有向的,是以兩個頂點在兩個方向上可以有不同關系的邊。
Edge Weights:使用基于相似性的注意力子產品來設定邊緣權重。注意力函數的計算方式是,對于每個頂點,引入的邊集的總權重為1,考慮過去和未來文本權重計算公式:
α i j = s o f t m a x ( g T W e [ g i − p , . . . , g i + f ] ) , f o r j = i − p , . . . , i + f ( 1 ) \alpha_{ij} = softmax(g^TW_e[g_{i-p},...,g_{i+f}]), for j={i-p},...,{i+f} \ (1) αij=softmax(gTWe[gi−p,...,gi+f]),forj=i−p,...,i+f (1)
確定總權重1
Relations:根據兩個方面來設定邊緣 r i j r_{ij} rij的關系 r r r:
Speaker dependency -這種關系取決于構成頂點的兩個說話者: p s ( u i ) p_{s(ui)} ps(ui)和 p s ( u j ) p_{s(uj)} ps(uj)
Temporal dependency -這種關系還取決于對話中 u i u_i ui和 u j u_j uj出現的相對位置:無論i,j誰先說。如果對話中有M個不同的說話者,最多可以有KaTeX parse error: Undefined control sequence: \* at position 8: M(u_i) \̲*̲ M(u_j) \* 2前後位置 = 2 M 2 2M^2 2M2中不同的關系類型
對話中的每個說話者都受到其他說話者的獨特影響,是以我們假設在圖中明确聲明這樣的關系邊将有助于捕捉說話者之間的互相依賴和自我依賴,這将有助于說話者級别的上下文編碼。
舉例來說,讓雙方 p 1 、 p 2 p1、p2 p1、p2參與具有5個對話的二進制對話,其中 u 1 、 u 3 、 u 5 u1、u3、u5 u1、u3、u5由P1發出, u 2 、 U 4 u2、U4 u2、U4由 p 2 p2 p2發出。如果我們考慮完全連通圖,邊和關系将如表1所示構造。
Feature Transformation:我們現在描述使用圖形網絡轉換順序編碼特征的方法。頂點特征向量 ( g i ) (g_i) (gi)最初是與說話者無關的,然後使用兩步圖形卷積過程轉換成與說話者相關的特征向量。這兩種轉換都可以了解為基本可微消息傳遞方法的特例
在第一步中,一個新向量 h i ( 1 ) h_i^{(1)} hi(1)通過聚集向量 v i v_i vi局部領域資訊計算(在這種情況下,由過去和将來的上下文視窗大小指定的相鄰話語)
h i ( 1 ) = σ ( ∑ r ∈ R ∑ j ∈ N i r α i j c i , r W r ( 1 ) g j + α i i W 0 ( 1 ) g i ) , f o r i = 1 , 2 , . . . , N ( 2 ) h_i^(1) = \sigma(\sum_{r \in R} \sum_{j \in Nir} \frac{\alpha_{ij}}{c_{i,r}} W_r^{(1)}g_j + \alpha_{ii}W_0^{(1)}g_i), for i=1,2,...,N \ (2) hi(1)=σ(r∈R∑j∈Nir∑ci,rαijWr(1)gj+αiiW0(1)gi),fori=1,2,...,N (2)
α i j \alpha_{ij} αij和 α i i \alpha_{ii} αii是邊權重, N i r N_i^r Nir代表鄰居節點i的關系 r ∈ R r \in R r∈R, c i c_i ci是一個特定于問題标準化常數,可以預先設定如 c i , r = ∣ N i r ∣ c_{i,r} = |N_i^r| ci,r=∣Nir∣或者可以在基于梯度的學習設定中自動學習。激活函數自己設定如ReLU
在第二步中,在第一步的輸出上應用另一個基于局部鄰域的變換,
h i ( 2 ) = σ ( ∑ j ∈ N i r W ( 2 ) h j ( 1 ) + W 0 ( 2 ) h i ( 1 ) ) , f o r i = 1 , 2 , . . . , N ( 3 ) h_i^{(2)} = \sigma(\sum_{j \in {Nir}} W^{(2)}h_j^{(1)}+W_0^{(2)}h_i^{(1)}), \ for i=1,2,...,N \ (3) hi(2)=σ(j∈Nir∑W(2)hj(1)+W0(2)hi(1)), fori=1,2,...,N (3)
這一堆變換,Eqs.(2)和(3),有效地累積了局部鄰域的歸一化和(鄰域的特征),即圖中每個話語的鄰域說話者資訊。自連接配接確定了自相關特征變換
Emotion Classifier:将上下文編碼的特征向量 g i g_i gi(來自順序編碼器)和 h i ( 2 ) h_i^(2) hi(2)(來自speaker-level編碼器)連接配接起來,并應用基于相似性的注意力機制來獲得最終的話語表示:
h i = [ g i , h i ( 2 ) ] , ( 4 ) h_i = [g_i, h_i^(2)], \ (4) hi=[gi,hi(2)], (4)
β i = s o f t m a x ( h i T W β [ h 1 , h 2 , . . . , h N ] ) , ( 5 ) \beta_i = softmax(h_i^TW_{\beta}[h_1, h_2, ..., h_N]), \ (5) βi=softmax(hiTWβ[h1,h2,...,hN]), (5)
h i ~ = β i [ h 1 , h 2 , . . . , h N ] T , ( 6 ) \widetilde{h_i}=\beta_i[h_1,h_2,...,h_N]^T, \ (6) hi
=βi[h1,h2,...,hN]T, (6)
最後,使用完全連接配接的網絡對話語進行分類:
l i = R e L U ( W i h i ~ + b l ) , ( 7 ) l_i = ReLU(W_i\widetilde{h_i} + b_l), \ (7) li=ReLU(Wihi
+bl), (7)
P i = s o f t m a x ( W s m a x l i + b s m a x ) , ( 8 ) P_i = softmax(W_{smax}l_i + b_{smax}), \ (8) Pi=softmax(Wsmaxli+bsmax), (8)
y i ^ = arg max k ( P i [ k ] ) , ( 9 ) \widehat{y_i} = \argmax_k(P_{i}[k]), \ (9) yi
=kargmax(Pi[k]), (9)
Training Setup:我們使用分類交叉熵和L2正則化作為訓練過程中損失的度量:
L = − 1 ∑ s = 1 N c ( s ) ∑ i = 1 N ∑ j = 1 c ( i ) log P i , j [ y i , j ] + λ ∣ ∣ θ ∣ ∣ 2 ( 10 ) L=-\frac{1}{\sum_{s=1}^Nc(s)} \sum_{i=1}^N \sum_{j=1} ^{c(i)} \log P_{i,j}[y_{i,j}] + \lambda||\theta||_2 \ (10) L=−∑s=1Nc(s)1i=1∑Nj=1∑c(i)logPi,j[yi,j]+λ∣∣θ∣∣2 (10)
N 樣本/對話的數量,c(i)是樣本i中的話語數量, P i , j P_{i,j} Pi,j是對話I的話語j的情感标簽的機率分布,θ是所有可訓練參數的集合
4. Experimental Setting
4.1 Datasets Used
IEMOCAP,AVEC,MELD
4.2 Baselines and State of the Art
CNN, Memnet, c-LSTM, c-LSTM+Att, CMN, ICON, DialogueRNN
5 Results and Discussions
5.1 Comparison with State of the Art and Baseline
為了解釋這種性能差距,了解這些模型的本質是很重要的。DialogueGCN和DialogueRNN都試圖對speaker-level的上下文進行模組化(盡管不同),而其他模型都沒有對speaker-level的上下文進行編碼(它們隻對順序上下文進行編碼)。這是基線模型中的一個關鍵限制,因為說話者級别的上下文在會話情感識别中确實非常重要。
由于循環編碼器具有長期的資訊傳播問題,是以對于像這兩個資料集中發現的長序列,說話者級編碼可能是有問題的。相比之下,DialogueGCN試圖通過使用基于鄰域的卷積來模拟說話人級别的上下文來克服這個問題。
5.2上下文視窗的效果
我們在表3和表4中報告了DialogueGCN模型的結果,用過去和未來的上下文視窗大小(10,10)來構造邊。我們還進行了上下文視窗大小減小(8,8),(4,4),(0,0)的實驗,發現在IEMOCAP上F1的分數為62.48%,59.41%和55.80%,性能穩步下降。上下文視窗大小為(0,0)的DialogueGCN相當于隻有順序編碼器的模型(因為它隻有自己的邊),性能預計會差得多。由于計算限制,我們無法在更大的視窗上執行大量實驗,但我們預計在更大的上下文大小下性能會有所提高。
5.3 Ablation Study
在表5中,我們對不同級别的上下文編碼器,即順序編碼器和speaker-level編碼器進行了消融研究。
此外,我們還研究了邊緣關系模組化的效果。如第3.3.2節所述,對于有M個不同說話者的對話,總共有 2 M 2 2M^2 2M2不同的邊關系。這些結果支援了我們的假設,即對話中的每個說話者都受到其他人的獨特影響,是以,建立對話者依賴模型是基本的。
5.4 Performance on Short Utterances
短句的意思依賴上下文
5.5 Error Analysis
相似情感容易誤差 憤怒-沮喪 興奮-高興