天天看點

劉兵《Entity and aspect extraction for opinion mining 》翻譯筆記IntroduceAspect-based Opinion Mining ModelAspect Extration

轉載請聲明出處。

這是一本書的一個章節(49頁),書名叫《Data mining and knowledge discovery for big data》2014年Springer出版。

Introduce

介紹了一些Opinion Mining的背景,這裡不說。

survey book:

1. Pang and Lee(2008)

2. Liu(2012)

三種粒度:篇章級、句子級、方面級

篇章級:篇章級情感分類可能是最廣泛的研究問題。

句子級:對文檔的單個句子進行情感分類,但不是每個句子都包含意見的。是以第一個任務就是判斷句子是否包含意見,被稱為『主觀性分類』。

方面級:篇章級和句子級雖然有許多應用場景,但是一個被分為正向的句子中,并非所有aspect都是正向的。是以需要細化到aspect。

“Aspect-based opinion mining”第一次在Hu and Liu(2014)被提出,當時叫”Feature-based opinion mining”。

它的基本任務是提取和概況人們表達的實體和方面的意見,包含三個核心子任務:

1. 識别和提取實體

2. 識别和提取實體的方面

3. 計算實體和實體方面的情感傾向

“I brought a Sony camera yesterday, and its picutre quality is great.” 它的asepct為picture quality,實體為Sony camera。

本章節針對這兩個任務進行展開。

一些研究者用feature和object表達aspect和entity,也有一些研究者不區分aspect和entity,直接看作opinion target。

Aspect-based Opinion Mining Model

Model Concepts

Defintion: entity

一個entity可以是産品、服務、事件、組織或者話題。它關聯着一個pair, e:(T,W): T為元件(components(or parts))的層級結構, W為e的屬性(attribute)。每個component或者sub-component也有它自己的屬性>

例子:entity iPhone 有一系列component(如battery和screen)和一系列attribute(如voice quality、size和weight)battery元件也有它自己的屬性(如bettery life和battery size)

該定義可以表達為一棵樹。

Definition: aspect and aspect expression

在實戰中,簡化該定義經常是有效的,因為nlp很難,學習層級結構更難。是以,我們簡化和摧毀樹結構到兩級結構,用aspects來表達components和attributes。在簡化的樹中,根節點為entity,二階節點為aspect。

aspect expression 是一個在文本中出現的實際單詞或短語。

它經常為名詞或名詞短語,但也有動詞、動詞短語、形容詞、副詞。

我們把句子中的以名詞或名詞短語形式出現的aspect expression成為explicit aspect expression。其他形式就成為implicit aspect expressions。implicit較為複雜。

Definition: entity expression

entity expression是出現在文本中訓示一個特定entity的實際單詞或短語。

Defintion: opinion holder

表達意見的人或組織,經常被稱為opinion sources

Definition: opinion

opinion有兩個主要類型:regualr opinions和comparative opinions(Liu, 2010;Liu,2012)

五元組:

(ei,aij,ooijkl,hk,tl)

當一個意見描述entity整體,一般aspect用GENERAL表達。

Model of entity

entity ei 可以用整體和一個有限的aspect集合 Ai={ai1,ai2,…,ain} 表達。

entity可以用一個entity expression集合來表示, OEi={oei1,oei2,…,oeis}

每個aspect aij∈Aid 可以用一個aspect expression集合表示, AEij={aeij1,aeij2,…,aeijm}

Model of opinionated document

一篇包含意見的文檔d包含來自意見持有者集合 {h1,h2,…,hp} 的關于實體集合 {e1,e2,…,er} 的意見。

每個實體 ei 的意見可以用entity本身和aspects Aid 表達。

Objective of opinion mining

目标是挖掘Document中的五元組

Aspect-based Opinion Summary

Aspect Extration

aspect extaction和entity extration都歸屬于資訊抽取,目标都是從無結構文本中自動抽取結構化資訊。但是傳統的資訊抽取技術經常是應用于正式文本(新聞、論文等),對于opinion mining application就有困難。我們目标是從包含意見的文檔中抽取細粒度的資訊(reviews, blogs and forum discussions),其中包含着大量的噪音和有着獨特的特征。是以,設計針對于opinion document的抽取算法是有必要的。

目前的研究主要基于線上評論,通常有兩種格式:

1. Pros, Cons and the detailed review,如某些手機網站

2. Free format

本文主要針對格式2。

Extraction Approaches

這裡隻介紹近年(2014)aspect抽取的主要方法。

正如前面所說的,aspect有兩種類型:explicit和implicit。我們先讨論explicit。

我們把現有的提取方法分類三個主要類型:

1. language rule

2. sequence models

3. topic models

Exploiting Language Rules

基于語言規則的系統在資訊抽取領域有着很長的使用曆史。這些規則基于上下文模式,擷取文本中一個或多個terms的不同特性或特性。在評論中,我們使用aspects和opinion word或其他詞語之間的文法關系來推導提取規則。

Hu and Liu(2004)第一個提取使用關聯規則來提取aspects,主要步驟:

1. 找出頻繁名詞和名詞短語作為frequent aspects

2. 使用aspects和opinion words的關系來識别非頻繁的aspect。

使用frequent名詞和名詞短語作為aspect簡單有效

Blair-Goldensohn et al.(2008)通過考慮有情感的句子中的名詞短語或訓示情感的一些句法模式來改進算法。幾個過濾方法被應用來移除不像的aspect,例如,移除那些附近沒有已知情感詞的aspect。

基于frequency的思路後來也被應用。(Popescu and Etzioni, 2005; Ku et al., 2006; Moghaddam and Ester, 2010; Zhu et al., 2009; Long et al., 2010).

用改進的opinion word和aspect關系來提取aspect的思路可以被歸為使用依存關系。

Zhuang et al.(2006)使用依存關系來從影評中提取aspect-opinion pairs。

Wu et al.(2009)用了一個短語依存句法分析工具來提取名詞短語和動詞短語作為aspect候選。與一般的依存句法分析工具不同,短語依存句法分析工具識别短語的依存關系。Kessler and Nicolov(2009)也用了依存關系。

Wang and Wang(2008)提出了一個同時識别aspect和opinion word的方法。給定種子opinion words,用bootstrapping的方法來交替識别aspect和opinion word。互資訊(mutual information)被應用于衡量潛在aspect和opinion word的關聯程度。另外,語言規則被用于識别非頻繁的aspects和opinion words.類似的bootstrapping思路也在Hai et al.(2012)提出。

Double propagation(Qiu et al.,2011)進一步發展了前面的思路。像Wang and Wang(2008),該方法隻需要一個初始的種子opinion words。它觀察到意見幾乎都是有target的,而且句子中的aspect和opinion word有自然的關系,因為opinion word用來修飾target。此外,它發現opinion words之間有關系,aspects也是。是以,opinion words可以通過已識别的aspect來識别,aspect也可以通過已識别的opinion word來識别。已抽取的opinion word和aspect可以用來識别新的opinion word和aspect。這個傳播過程執行到不在有新的opinion word和aspect被發現。因為這個過程包含opinion word和aspect,是以叫double propagation。抽取規則根據opinion word和aspect之間的不同關系來設計。

Double Propagation方法在中等大小的語料中有效,但是對于大的或者小的語料,它可能會造成低precision和低recall。原因是基于直接依存關系的規則在語料中有很大幾率引入噪音,而對于小語料來說,規則太局限。為了克服這些缺點,Zhang et al.(2010)擴充了double propagation。它包括兩步:aspect extraction和aspect ranking。對于aspect extraction,依然使用double propagation。但是,引入了一些新的語言模式(e.g.,part-whole關系規則)。提取之後,它将候選aspect根據重要性排序,考慮兩個主要因素:aspect candidate和aspect frequency。前者描述了一個候選aspect多像一個真實的aspect,有三個線索:第一個就是aspect經常被多個opinion word修飾;第二個是aspect可以用多個part-whole規則提取,比如,在car領域,”the engine fo the car”和”the car has a big engine”,我們推斷”engine”是car的一個aspect;第三個是aspect可以用opinion word修飾關系、part-whole關系和其他語言規則聯合提取。如果一個aspect不僅被opinion word修飾,而且通過part-whole提取,我們可以推斷他是一個有着high confidence的真實aspect,比如”there is a bad hole in the mattress”,它強烈地訓示了”hole”是mattress的一個aspect,因為他被”bad”修飾和在part-whole關系裡。此外,在opinion words、linguistic pattern和aspect之間有一些互相加強的關系。如果一個形容詞修飾多個真實aspect,它就很可能是一個good opinion word。類似地,如果一個候選aspect通過許多opinion words和linguistic pattern提取出來,它就很可能是一個真實aspect。是以Zhang et al.用HITS算法(Klernberg, 1999)來衡量aspect relevance。Aspect Frequency是影響aspect ranking另一個重要因素。

Liu et al.(2012)也利用了opinion word和aspect的關系來提取。但是他們把aspect和opinion word之間的opinion relation identification看作是詞對齊任務(word alignment)。他們用基于詞的翻譯模型(Brown et al.,1993)來實作單語詞對齊。基本上,aspect和opinion word的關聯用翻譯機率來衡量,能比語言規則更準确更有效地擷取aspect和opinion word之間的opinion relations。

Li et al.,(2012a)提出了一個領域自适應的方法來抽取跨領域的aspect和opinion word。在一些情況下,目标領域沒有标注資料,但源領域有大量标注資料。基本的思路就是利用源領域抽取的知識來幫助識别目标領域的aspect和opinion word。該方法包括兩個步驟:(1)識别一些共同的opinion words作為種子,然後從源領域中提取高品質的opinion aspect種子。(2)一個叫”Relational Adaptive bootstrapping”的bootstrapping方法用來擴充這些種子。首先,通過在源領域的标注資料和目标領域的新标注資料來疊代訓練一個跨領域的分類器,然後用它來預測目标未标注資料的label。第二,top預測的aspect和opinion word被挑選來作為候選。第三,利用之前疊代中提取的句法規則來建構一個aspect和opinion word之間的二部圖。使用基于圖的得分計算算法擷取top候選,分别加入到aspect和opinion word list中。

除了利用aspect和opinion word的關系以外,Popescu and Etzioni(2005)提出了利用一個上下文中的鑒别關系來提取aspects的方法,也就是aspects和産品class的關系。他們首先提取頻繁的名詞短語作為候選aspect,然後使用候選和一些産品class的部分整體關系鑒别器(meronymy discriminators)之間的PMI評估每個候選詞。例如”scanner”類别的meronymy discriminators是像”of scanner”, “scanner has”,”scanner comes with”等模式。PMI公式

PMI(a,d)=hits(a∧d)hits(a)hits(d)

a是候選aspect,d為meronymy discriminators。通過搜尋引擎實作hits()。

該算法也用WordNet的is-a層次結構和形态結構線索從attribute中差別components/parts。

Kobayashi et al.(2007)提出了一個從blog中提取aspect-evaluation和aspect-of關系的方法,它利用了aspect, opinion expression和product class的關聯關系。例如,在aspect-evaluation pair提取中,evaluation expression首先由詞典決定。然後,句法關系被用來找出它對應的aspect來生成候選pair。這些候選pairs通過一個由結合上下文和統計線索這兩種資訊訓練得到的分類器來測試和驗證。上下文線索為句子中詞的句法關系,它可以由依存文法決定;統計學線索是标注的aspect和evaluations的共現。

Squence Models

主要是Hidden Markov Model和Conditional Random Fields。有監督學習。

Hidden Markov Model

Jin et al.(2009a and 2009b)利用詞彙化的HMM來從評論中抽取product aspects和opinion expression。與傳統HMM不同,他們将如POS和詞彙模式融入到HMM中。例如,一個觀察變量用pair( wordi , POS(wordi) )表示。

Conditional Random Fields

Jakob and Gurevych(2010)利用CRF從包含意見的句子中抽取opinion target(or aspects)。他們用Token, POS, Short Dependency Path, Word Distance作為特征輸入。使用Inside-Outside-Begin(IOB)标注方案。

Li et al.,2010a做了類似的工作。為了能對句子級中的長距離的用連接配接詞(“and”, “or”, “but”)連接配接的依存關系,以及aspect,positive opinion和negative opinion之間的深層依存句法模組化,他們使用了skip-tree CRF模型來發現産品aspect和opinoin。

Topic Model

主題模型在NLP和文本挖掘中被廣泛運用,它基于文檔的多個主題分布和每個主題的詞分布。一個主題模型是文章的生成模型(generative model)。通常,它指定文章的生成過程。具體看《LDA數學八卦》。

主題模型可以用于aspect抽取。我們可以認為每個aspect是一個元語言模型,即詞語的多項分布。雖然這樣的表示很難解析為aspect,但是它的優勢就是表達一樣或相近aspect的不同詞語可以被自動地聚到一起。如今,用主題模型抽取aspect有着大量的研究。他們基本上是吸收和擴充了pLSA(Hofmann, 2011)和LDA模型(Blei et al., 2003)。

Probabilistic Latent Semantic Analysis

原理請閱讀《LDA數學八卦》。

對于aspect抽取任務,我們可以把産品aspect當做opinion document中的潛在topic。Lu et al.(2009)提取了在短文本中發現aspect和聚類的方法。他們假設每條評論都可以被解析成為格式為

Latent Dirichlet Allocation(LDA)

基本的LDA模型請閱讀《LDA數學八卦》

基于LDA的模型在幾個研究中被用于aspect抽取。Titov and McDonald(2008a)指出全局的主題模型(像pLSA和LDA)可能不适合發現aspect。pLSA和LDA都用了文檔的詞袋模型表示,它依賴于主題的分布差異和詞語的共現來識别每個主題中的topic-word機率分布。但是,對于opinion文章(如review)來說,他們非常不同。也就是,每個文檔都是讨論相同的aspect,這使得全局主題模型(global topic model)效率低和隻對entities發現有效(如品牌和産品名稱)。為了解決這個問題,他們提取了多粒度的LDA(MG-LDA)來發現aspect,它對global topic和local topic這兩個不同類型的主題進行模組化。像在pLSA和LDA中,對于一篇文章的global topic分布是固定的。但是,local topic的分布則允許不同。一個文檔中的一個詞是要麼從global topic的多項分布,要麼從這個詞的local context特定的local topic的多項分布。它假設aspect會被local topic擷取,global topic會擷取評價item的屬性。例如,一條London hotel的評論:”…public transport in London is straightforward, the tube station is about an 8 minute walk… or you can get a bus for $1.50”。這條評論可以當做是global topic London (words:”London”,”tube”,”$”)和local topic(aspect) location (words:”transport”, “walk”, “bus”).

MG-LDA能區分local topics。但是由于local topics和ratable aspects之間的many-to-one映射,這個對應是不明顯的。它缺乏topics到aspects的直接配置設定。為了解決這個問題,Titov and McDonald(2008b)擴充了MG-LDA模型和建構了一個文本和aspect rating的聯合模型,叫做Multi-Aspect Sentiment model(MAS)。它包含兩個部分:第一個部分是基于MG-LDA來建構代表ratable aspect的topics;第二部分是針對每個aspect的一系列分類器(sentiment predictors),它在aspect-specific rating的幫助下推斷local topics和aspect的映射。他們的目标是利用rating資訊來識别更多aspect。

LDA的思想也被應用和擴充在(Branavan et al.,2008; Lin and He, 2009; Brody and Elhadad, 2010; Zhao et al., 2010; Wang et al., 2010; Jo and Oh, 2011; Sauper et al., 2011; Moghaddam and Ester, 2011; Mukajeee and Liu, 2012)。Branavan利用Format 1的評論格式的關鍵詞來協助提取aspect。關鍵詞是基于分布的和正字的(orthographic)屬性來聚類,隐topic model應用于review文本。然後,一個最終的圖模型将他們兩個結合。Lin and He(2009)提出了一個join topic-sentiment model(JST),它通過加入一個sentiment層來擴充了LDA。它能從文本中同時發現aspect和sentiment。Brody and Elhadad(2010)提出了用local版本的LDA來識别aspect,它作用于句子而非文檔,利用了小量的直接對應于aspect的topics。Zhao et al.(2010)提出了一個MaxEnt-LDA混合模型來聯合發現aspect words和aspect-specific opinion words,它能利用句法特征來幫助區分aspects和opinion words。Wang et al.(2010)提出了一個回歸模型基于學習了的潛在aspects來推斷aspect ratings和aspect weights。Jo and Oh(2010)提出了一個Aspect and Sentiment Unification Model(ASUM)來對面向不同asepct的sentiment模組化。Sauper et al.(2010)提出一個聯合模型,它隻工作于已經從reviews中提取的小片段,聯合了HMM和topic modeling,其中HMM拟合了詞類型序列(aspect, opinion word, or background word)。Moghaddam and Ester(2011)提出了一個叫ILDA的模型,它基于LDA和加入了潛在aspect和rating模組化。ILDA能看做一個生成過程:首先生成一個aspect,随後生成它的rating。特别地,對于生成每個opinion phrase,ILDA首先從LDA模型中生成aspect am ,最後。一個head term tm 和一個sentiment sm 從 am 和 rm 的條件分布中生成。Mukajeee and Liu(2012)提出了兩個模型(SAS and ME_SAS)來使用種子對aspect和aspect specific sentiments聯合模組化,進而從語料發現aspects。種子反映了使用者對發現特定aspects的需求。

其他關于topic model相關工作有topic-sentiment model(TSM)。Mei et al.(2007)提出這個模型來對在blog中的topic和sentiment聯合模組化,它用了一個positive sentiment model和一個negative sentiment model附加在aspect模型上。他們在文章級别進行情感分析而不是在aspect級别。在(Su et al., 2008)中,作者也提出了一個基于mutual reforcement方法的聚類算法來識别aspect。類似的工作有(Scaffidi et al., 2007),他們提出了一個針對于産品aspect的語言模型,它假設産品aspect在産品review文本中比在通用英文文本中更頻繁提到。但是,當語料規模小的時候,統計是不可靠的。

總的來說,主題模組化是一個強大和靈活的模組化工具。它也在概念上和在數學上都很優秀。但是,它隻适合找出一些general/rough的aspects,難以找到細粒度的或者準确的aspects。我們認為它過于以統計為中心,有局限。如果我們往自然語言和知識中心轉移,提出更平衡的方法,可能會有更多成果。

Miscellaneous Methods

Yi et al.(2003)提出基于likelihood-ratio test的方法提出aspect。Bloom et al.(2007)人工建構了aspects的分類,訓示aspect類型。他們也通過review的一個樣本來建構aspect詞典,他們人工檢驗這些種子詞典,用WordNet來挖掘額外的詞語。Lu et al.(2010)利用Freebase來擷取一個topic的aspects,用它們來組織零散的意見,生成一個結構化的意見摘要。Ma and Wan(2010)利用Centering theory(Grosz et al.1995)來從新聞評論中提取評價對象。Ghani et al.(2006)把aspect抽取當成分類問題,用了傳統的監督學習方法和半監督學習方法來抽取産品aspects。Yu et al.(2011)使用一個叫one-class SVM的部分監督方法來提取aspects,隻需要标注一些正例(是aspect的例子)。他們隻從Pros和Cons抽取aspects。Li et al.(2012b)把抽取aspect當做淺層語義解析問題。每個句子建構一棵解析樹,其中的結構化的句法資訊用來識别aspect。

Aspect Grouping and Hierarchy

人名通常會使用不同的詞語和表達來描述同一個aspect。例如,photo和picture在數位相機領域中表達同一個aspect。雖然topic model可以識别和聚合aspect,但是結果并不是細粒度的,因為這樣的模型是基于詞共現而不是語義。是以,一個topic往往是關于一個general topic的相關詞list,而不是表示同一個aspect的詞list。例如,一個topic關于battery可能包含像life,battery,charger,long,short等詞語。我們可以清晰地看到,這些詞語并不代表同一個東西,雖然他們可能經常共現。我們可以先提取aspect expression,然後把他們聚合到不同的aspect catergories。

聚合訓示同一個aspect的aspect expression對opinion應用來說是很關鍵的。雖然WordNet和其他詞典可以幫助這個任務,但是他們由于很多同義詞都是領域獨立的,是以經常無效。例如,picture和movie是moview評論的同義詞,但是他們在數位相機領域不是同義詞,因為picture更接近photo而movie更接近video。注意到雖然一個aspect的大部分aspect expressions是領域同義詞,但是他們不總是同義詞。例如,expensive和cheap都可以訓示price這個aspect,但他們不是price的同義詞。

Liu, Hu and Cheng(2005)試圖用WordNet同義詞集來解決這個問題,但是結果不令人滿意,因為WordNet對解決領域獨立的同義詞方面不夠有效。Carenini et al.(2005)也提出了一個方法解決這個問題。他們的方法基于使用字元串相似度、同義詞和距離衡量來定義的幾種相似度矩陣。但是,它要求事先給定一個分類。這個算法合并每一個發現的aspect expression到分類中的一個aspect結點。

Guo et al.(2009)提出了一個多層次的潛在語義關聯技術(叫mLSA)來聚合産品aspect expression。在第一層,aspect expression的所有詞都通過使用LDA被聚合到一個concepts/topics集合中。這個結果用來建構一些潛在topic結構。在第二層,aspect expression通過LDA根據他們的潛在topic結構和上下文片段來被聚合。

Zhai et al.(2010)提出了一個半監督方法來将aspect expression聚合到使用者自定義的aspect group或category中。每個group代表一個特定的aspect。為了反映使用者的需求,他們首先給每個group人工标注一小部分種子。這個系統然後使用基于标注的種子和未标注的樣本來将剩餘的aspect expression配置設定到合适的group。這個方法使用了Expectation-Maximization(EM)算法。兩塊先驗知識被使用來為EM提供更好的資訊,也就是:(1)共用一些相同的詞語的aspect expression更可能屬于同一個aspect group;(2)在詞典中屬于同義詞的aspect expression更可能屬于同一個aspect group。Zhai et al.(2011)進一步提出了一個無監督方法,不需要事先标注樣本。此外,它進一步通過詞典相似度加強。這個算法也利用了一些自然語言知識來提取更有區分性的分布上下文來幫助聚合。

Mauge et al.(2012)使用基于聚類算法的最大熵來聚合aspect。它首先訓練一個最大熵分類器來決定兩個aspect是同義詞的機率。然後,一個無向有權圖建構出來。每個節點代表一個aspect。每條邊權重代表兩個節點的機率。最後,近似圖分割方法(approximate graph partitioning method)用來聚合aspect。

與aspect聚合相關的aspect層級用來将産品aspect表示成一棵樹或層級。根節點是實體名稱。每個非根節點是一個entity的元件或子元件。每一個link都是part-of關系。每一個結點關聯一系列的aspect。Yu et al.(2011b)提出了一個方法來建立aspect層級。這個方法從一個初始層級開始,一個個地插入aspect直到所有aspect被配置設定。每個aspect通過語義距離學習來插入到最佳位置。Wei and Gulla(2010)學習基于aspect hierarchy trees的情感分析。

Aspect Ranking

Mapping Implicit Aspect Expressions

有許多隐形aspect expression類型。形容詞可能是最經常出現的類型。許多形容詞修飾或描述一些特定的entity屬性。例如,形容詞heavy通常描述entity的weight。Beautiful一般用來描述entity的look或者appearance。也不是說這些形容詞隻描述這些aspects。他們準确的意思可以是領域獨立的。例如,heavy在句子the traffic is heavy并不描述交通的weight。注意一些隐性aspect expression很難提取和映射,例如,fit in pockets在句子This phone will not easily fit in pockets。

将隐性aspect映射到他們的顯性aspect的研究并不多。在Su et al.(2008)中,聚類算法被用來映射隐性aspect expression,這些aspect expression被假設為情感詞,對應着顯性aspect。這個方法利用了顯性aspect和情感詞之間的互相增強關系來生成一個共現pair。這樣的一個pair可能訓示着情感詞描述aspect,或者aspect關聯着情感詞。這個算法通過将顯性aspect集和和情感詞集合分别疊代聚類來挖掘映射關系。在每一詞疊代中,在對一個集合聚類之前,使用其他集合的聚類結果來提升集合的pair相似度。集合中的pair相似度由集合内相似度和集合間相似度的線性組合來決定。兩項在集合内的相似度是傳統的相似度,在集合間的相似度基于aspect和情感詞的關聯程度來計算。關聯程度(或mutual reinforcement relationship)由一個二分圖模組化。如果一個aspect和opinion word在句子中共現,那麼他們是相連的。這些連結也基于共現頻數來确定權重。在疊代聚類之後,強連接配接的aspect和情感詞group生成最後的映射。

在Hai et al.(2011)中,一個兩階段共現關聯規則挖掘方法被提出來比對隐性aspect(被假設為情感詞)的顯性aspect。在第一階段,這個方法生成關聯規則,将語料中頻繁在句子中共現的pair中的每個情感詞作為condition,顯性aspect作為consequents。在第二階段,對consequents(顯性aspect)聚類來為每個規則中的情感詞生成更加魯棒的規則。為了應用或測試,給定沒有顯性aspect的情感詞,找出最好的規則簇,然後配置設定這個簇中的代表性詞語作為最後識别的aspect。

Fei et al.(2012)聚焦于找到被意見形容詞(opinion adjectives)訓示的隐性aspect(主要是名詞),例如,為形容詞expensive識别price、cost等。他們提出了一個基于詞典的方法,嘗試從形容詞詞典中識别出屬性名詞。他們把問題定義為集合分類問題(colletive classification problem),它可以利用詞語的詞典關系(如同義詞、反義詞、下位詞和上位詞)來分類。

一些其他相關工作包含在(Wang and Wang,2008;Yue et al.,2011b)。

Identifying Aspects that Imply Opinions

Zhang and Liu(2011a)發現在一些訓示産品的領域名詞和名詞短語中aspect可能隐含着opinion。在許多案例中,這些名詞不是主觀的而是客觀的。他們包含的句子也是客觀性的句子,但是暗含着正向或者負向的opinion。例如,床褥評論中一個句子“Within a month, a vally formed in the middle of the mattress.”。這裡valley訓示着床褥的品質,也暗含着負向的opinion。識别這樣的aspect和他們的極性是一項非常具有挑戰性但是在意見挖掘中非常有用的工作。

Zhang and Liu觀察到對于含有暗含opinion的一個産品aspect來說,并沒有直接修飾它的opinion word,或者修飾它的opinion word有着相同的意見傾向。

Observation:沒有opinion word直接修飾被評價的産品aspect(“valley”):

“Within a month, a vally formed in the middle of the mattress.”

Observation:有opinion形容詞修飾被評價的産品aspect(“valley”):

“Within a month, a bad vally formed in the middle of the mattress.”

這裡,形容詞bad修飾valley。它不像另一個句子中的正向opinion word也修飾valley,如,“good valley”。是以,如果一個産品aspect被正向和負向opinion形容都修飾的話,它不太可能是一個被評價的産品aspect。

基于這些觀察,他們設計了如下兩個步驟來識别暗含正向或負向意見的名詞産品aspect:

Step 1:候選詞識别(Candidate Identification):這一步決定了每個名詞aspect附近的情感上下文。這個直覺是如果一個aspect出現在負向(或正向)的意見上下文中比出現在正向(或負向)上下文更加頻繁,我們可以推斷它的極性是負向的(或正向的)。一個統計測試(總體比例測試)被用來測試它的顯著性。這一步生成一個正向意見的候選aspect清單和一個負向意見的候選aspect清單。

Step 2:剪枝(Pruning):這一步對兩個清單進行剪枝。思路是當一個名詞産品aspect被正向和負向opinion word都直接修飾時,它不太可能是被評價的産品aspect。

Identifying Resource Noun

Lin(2010)指出存在一些詞或短語類型本身沒有情感,但是當他們出現在一些特定的上下文中,它暗含着正向或負向的意見。在情感分析可以到達下一個準确率層次之前,所有這些表達必須要被提取和相關問題必須要被解決。

Postive <- consume no or little resource
          | consume less resource
 Negative <- consume a large quantity of resource
          |  consume more resource

Figure : 包含資源的表述的情感傾向。
           

這樣的一種表述類型包含了資源,這種情況經常出現在許多應用領域中。例如,money在幾乎所有領域中是一種資源,ink在printer領域中是一種資源,gas在car領域中是一種資源。如果一個裝置消耗了大量資源,它是不令人滿意的(negative)。如果一個裝置消耗極少資源,他是令人滿意的(positive)。例如,句子“This laptop needs a lot of battery power”和句子“This car eats a lot of gas”分别在laptop領域和car領域中暗含着負向的情感。這裡gas和battery power都是資源,我們把這些詞語成為資源項(resource terms,包括詞語和短語)。他們是一種特殊的産品aspect。

在包含資源的情感方面,Figure 6中的規則可用(Liu, 2010)。規則1和規則3代表了包含資源和暗含情感的常态句子,而規則2和規則4代表了包含資源和暗含情感的比較句式句子,例如,“this washer uses much less water than my old GE washer”。

Zhang and Liu(2011a)把問題定義為二分圖問題,并提出了一個疊代算法來解決問題。這個算法基于如下觀察:

Observation:句子中關于資源使用的情感或意見表達經常由如下三元組決定:

(verb,quantifier,noun_term)

其中, noun_term是代表資源的一個名詞或名詞短語。

這個方法使用這樣的三元組來幫助在領域語料中識别資源。模型使用了基于二分圖的循環定義來反映資源使用動詞(resource usage verbs,consume)和資源項(如,water)之間特定的增強關系。量詞(quantifier)不用在計算,而用在識别候選動詞和資源項。這個算法假設給定一個量詞清單(不多,可人工建構)。基于循環定義,這個問題通過使用像HITS算法(Kleinberg, 1999)這樣的疊代算法來解決。為了啟動疊代計算,一些全局的種子資源(seed resources)被用來發現和評分一些健壯的資源使用動詞。這些得分然後被應用到任意應用領域的疊代計算的初始化。當算法收斂時,一個排序過的候選資源項清單被識别出來。

待續。。。

繼續閱讀