機器之心專欄
作者:李明磊
作為 NLP 領域重要的研究方向之一,情感分析在實際業務場景中存在巨大的應用價值。在此文中,華為雲 NLP 算法專家李明磊為我們介紹了情感分析的概念以及華為雲在情感分析方面的實踐和進展。
基本概念
為什麼:随着移動網際網路的普及,網民已經習慣于在網絡上表達意見和建議,比如電商網站上對商品的評價、社交媒體中對品牌、産品、政策的評價等等。這些評價中都蘊含着巨大的商業價值。比如某品牌公司可以分析社交媒體上廣大群眾對該品牌的評價,如果負面評價忽然增多,就可以快速采取相應的行動。而這種正負面評價的分析就是情感分析的主要應用場景。
是什麼:文本情感分析旨在分析出文本中針對某個對象的評價的正負面,比如「華為手機非常好」就是一個正面評價。情感分析主要有五個要素,(entity/實體,aspect/屬性,opinion/觀點,holder/觀點持有者,time/時間),其中實體和屬性合并稱為評價對象 (target)。情感分析的目标就是從非結構化的文本評論中抽取出這五個要素。

圖 1 情感分析五要素
舉例如下圖:
圖 2 情感分析五要素例子
上例中左側為非結構化的評論文本,右側為情感分析模型分析出的五個要素中的四個(不包括時間)。其中實體「華為手機」和屬性「拍照」合并起來可以作為評價對象。評價對象又可細分為評價對象詞抽取和評價對象類别識别。如實體可以是實體詞和實體類别,實體詞可以是「餐館」、「飯店」、「路邊攤」,而實體類别是「飯店」;屬性可以是屬性詞和屬性類别,如屬性詞可以是「水煮牛肉」、「三文魚」等,都對應了屬性類别「食物」。實體類别和屬性類别相當于是對實體詞和屬性詞的一層抽象和歸類,是一對多的關系。詞和類别分别對應了不同的任務。觀點的取值範圍一般是 {正面,負面,中性}。類似的,可以把觀點看做是對描述詞的抽象和歸類,如「好看」歸為「正面」。
任務類型
目前研究中一般都不考慮情感分析五要素中的觀點持有者和時間,故後文中的讨論都不考慮這兩個因素。根據對剩下三個要素的簡化,目前情感分析的主要任務包括可按照圖 3 所示:詞級别情感分析、句子/文檔級情感分析、目标級情感分析。
圖 3 情感分析任務體系
其中詞級别和句子級别的分析對象分别是一個詞和整個句子的情感正負向,不區分句子中具體的目标,如實體或屬性,相當于忽略了五要素中的實體和屬性這兩個要素。詞級别情感分析,即情感詞典建構,研究的是如何給詞賦予情感資訊,如「生日」對應的情感标簽是「正面」。句子級/篇章級情感分析研究的是如何給整個句子或篇章打情感标簽,如「今天天氣非常好」對應的情感标簽是「正面」。
而目标級情感分析是考慮了具體的目标,該目标可以是實體、某個實體的屬性或實體加屬性的組合。具體可分為三種:Target-grounded aspect based sentiment analysis (TG-ABSA), Target no aspect based sentiment analysis (TN-ABSA), Target aspect based sentiment analysis (T-ABSA). 其中 TG-ABSA 的分析對象是給定某一個實體的情況下該實體給定屬性集合下的各個屬性的情感分析,如圖 4 中的實體是汽車,屬性集合是動力、外觀、空間和油耗。
圖 4 TG-ABSA 例子
TN-ABSA 的分析對象是文本中出現的實體的情感正負向,如圖 5 中,實體華為和 XX 的情感正負向分别為正面和負面。這種情況下沒有屬性的概念,隻有實體。
圖 5 TN-ABSA 例子
T-ABSA 的分析對象是文本中出現的實體和屬性組合,如圖 6 所示,評價對象是實體+屬性的組合,如華為+拍照和 XX+成本效益。
圖 6 TG-ABSA 例子
在清楚了目标級情感分析的分類之後,每個類别又都可以包含為兩大類任務:第一個是評價對象的識别,第二個是情感識别。評價對象識别包括評價對象詞抽取和評價對象詞分類,情感識别包括評價詞抽取和評價正負面分類。具體例子如圖 7 所示。之是以要識别出對象詞和評價詞,是為了能夠基于屬性正負面過濾的時候可以高亮相應的評價文本片段。
圖 7 評價對象和評價詞和類别識别例子
本文主要介紹詞級别情感分析、句子級情感分析和目标級情感分析中的 T-ABSA 的内容、方法和華為雲語音語義團隊在該領域實踐中的一些成果。這裡首先區分一些概念,本文所說的情感,包括 emotion 和 sentiment 兩種。嚴格意義上來說 sentiment 屬于 emotion 的一種,但是本文中不做區分。
詞級文本情感分析
任務介紹
詞級别的情感分析,即建構情感詞典(sentiment lexicon),旨在給詞賦予情感資訊。這裡首先要确定的是情感怎麼表示,常見的表示方法有離散表示法和多元度表示法。離散表示法如情感分析領域常用的 {正面,負面,中性} 的表示方法,或者如表
圖 8 離散情感模型,引用自 「1」
用離散表示法表示的情感詞典如:
高興-正面,生日-正面,車禍-負面,災難-負面
多元度表示法也有多種,如 Valence-Arousal-Dominance(VAD)模型,Evaluation-Potency-Activity(EPA)模型等。Valence 和 Evaluation 表示好壞,arousal 和 activity 表示人的喚起度,dominance 和 potency 表示控制力。
圖 9 Valence-Arousal 模型
用連續多元表示方法的情感詞典例子如:
VAD 模型在 [1,9] 取值範圍下:車禍可表示為 (2.05, 6.26, 3.76)
常見的方法
建構情感詞典常見的方法如圖 10 所示:
圖 10 常見情感詞典建構方法
人工标注優點是準确,缺點是成本太高。自動化方法中,都是先有人工标注一些種子詞,然後通過不同的方法把種子詞的标簽資訊擴充到其他詞。基于點互資訊的方法會基于大規模語料庫統計新詞和種子詞之間的統計資訊,然後基于該資訊對種子詞做權重求和得到資訊的情感标簽。基于标簽傳播的方法會先建構詞和種子詞的一個圖,圖上的邊是基于詞和詞之間的統計資訊獲得。然後用标簽傳播的算法獲得新詞的情感資訊。基于回歸的方法先建構詞的特征向量表示,然後基于種子詞的标簽資訊訓練一個回歸或分類模型,得到該模型後再對新詞做預測,獲得新詞的情感标簽資訊。
我們的進展
我們團隊基于已經标注的情感詞典,通過自動化的方法,建構了目前業界最大規模的多元度情感詞典。
圖 11 情感詞典建構流程
基于該方法,我們建構了業界最大規模的情感詞典庫,采用了 Valence-Arousal 的二維情感表示模型,情感值取值範圍為 [-1,.1](-1 表示不好(對應 Valence 次元)或無喚醒(對應 Arousal 次元),1 表示好或高喚醒度), 詞典包含六百萬詞,例子如下:
圖 12 建構的情感詞典例子
句子文本情感分析
任務介紹
句子級和篇章級文本情感分析旨在整個句子或文章表達的情感傾向性,如下例子:
- 買沒幾天就降價一點都不開心,閃存跑分就五百多點點 ---
- 外觀漂亮音質不錯,現在電子産品基本上都是華為的了 ---
- 汽車不錯,省油,成本效益高 ---
- 這個政策好啊,利國利民 ---
目前各友商推出的情感分析服務大部分都是這種整體文本的正負向預測。句子級情感分析服務在網際網路時代的電商評論、政策評價中有着廣泛的應用價值。句子級情感分析是一個典型的文本分類任務,我們團隊也采用了目前比較有效的預訓練模型+微調的方案,如下圖所示:
圖 13 句子級情感分析方案
我們的進展
目前我們已經上線了電商、汽車和社交領域的情感分析模型,主要支援中文語言,标簽是正面和負面,帶有标簽置信度。如下圖的例子所示,分别是手機、汽車和社交領域。
圖 14 EI 體驗空間電商領域、汽車領域和社交領域例子
目标級文本情感分析
任務介紹
前面介紹的句子級或篇章級的情感分析隻關注整個文本的正負面,沒有區分文本中具體的評價對象。是以就處理不了如下的例子:
該例子對汽車的各個屬性的評價正負面是不一樣的,如對動力和外觀來說是正面,對空間和油耗來說是負面,是以就不能簡單的分析整體文本的正負面。本節介紹的目标情感分析中的 TG-ABSA 任務,即固定實體下的給定屬性集合的評價正負面的預測。
我們的進展
傳統的屬性級情感分析可以采用每個屬性訓練一個情感分類模型。但是這種方法需要訓練多個分類模型,成本比較高。我們提出了基于單模型多屬性标簽輸出的方法,即一個模型同時輸出 N 個屬性的情感标簽。圖 15 是目前在汽車領域結果,其中 Attribute Hit Rate 是屬性的命中率,即預測出的屬性占評論中實際出現的比率。Hit Attribute Accuracy 是命中的屬性标簽預測的準确率,即在所有命中的屬性中,标簽預測正确屬性的占比。因為我們的模型可以輸出每個屬性标簽的置信度,是以可以基于置信度過濾來調節模型最終的輸出标簽,圖中是個曲線。圖 16 是汽車領域屬性級情感分析的例子,可以同時預測出評論中出現的動力和外觀兩個屬性對應的正負面。該功能支援汽車領域的八個屬性的評價預測,包括:内飾、動力、外觀、成本效益、操控、能耗、空間、舒适性。
圖 15 屬性級情感分析的效果
圖 16 汽車領域屬性情感分析例子
最後,打個小廣告。本文前面主要介紹了情感分析的概念以及華為雲在情感分析方面的實踐和進展,部分服務已經可以在我們的「EI 體驗空間」小程式體驗,歡迎大家體驗并提出寶貴的意見。
情感分析服務可以用于商品評價智能化分析、智能評分等,歡迎大家體驗。
關于作者
李明磊,華為雲 NLP 算法專家,博士畢業于中國香港理工大學,從事文本情感分析和情緒識别的研究,在 TAC 發表論文多篇,多次獲得最佳論文獎。目前在華為雲主要負責華為雲文本分類、情感分析、輿情監控平台等業務。主導的文本分類平台在汽車、電商、社交等領域的情感分析達到了業界領先的水準。汽車領域屬性級細粒度情感分析 8 屬性準确率均達到 90% 以上
參考文獻:
1. Li, Minglei, Qin Lu, Yunfei Long, and Lin Gui. “Inferring Affective Meanings of Words from Word Embedding.” IEEE Transactions on Affective Computing 8, no. 4 (2017): 443–456.
本文為機器之心專欄,轉載請聯系本公衆号獲得授權。
✄------------------------------------------------
加入機器之心(全職記者 / 實習生):[email protected]
投稿或尋求報道:[email protected]
廣告 & 商務合作:[email protected]