天天看點

《中國人工智能學會通訊》——6.6 實體消歧技術研究

實體是文本資訊的重要承載,每一段有意義的文本都描述了一組實體及這些實體互相之間的關聯和互動。識别并了解文本中的實體資訊也就成為了自然語言了解的基礎問題之一。

然而,文本中實體資訊的了解存在兩方面的挑戰。首先,文本中的實體名通常具有歧義。例如,給定如下三個包含“蘋果”的句子:

●  今 天 上 午 蘋 果 由 喬 布 斯 發 布 了 新 一 代iPhone。

●  我早餐吃了一個蘋果。

●  範冰冰在蘋果中演的不錯。

上述三個句子中的 “蘋果”分别指向實體“蘋果公司”、“水果蘋果”及“電影蘋果”。其次,實體的提及(mention)形式具有多樣性,也就是人們可能會用不同的實體名來指向同一個實體。例如,在提到 IBM 公司時,人們可以使用 IBM、Big Blue 或 International Business MachinesCorporation 等不同名字。為解決實體名的歧義性和多樣性問題,在許多應用中需要确定實體名所指向的真實世界實體,也就是實體消歧 (EntityDisambiguation)。圖1展示了一個實體消歧的示例。

《中國人工智能學會通訊》——6.6 實體消歧技術研究

随着大資料時代的到來,實體消歧已經成為了許多重要應用和任務的基礎技術,在越來越多的地方發揮重要作用,例如:

知識圖譜的建構和補全。自然語言了解和類人智能推理一直是人工智能的長期目标之一。然而上述兩項任務都依賴于海量的世界知識,也就是知識圖譜的幫助。通過識别知識圖譜中特定實體在文本中的出現,同時發現文本中知識圖譜未覆寫的實體,實體消歧在知識圖譜的建構和補全上都起到重要作用。

基于知識的自然語言了解。近年來越來越多的智能資訊服務(如蘋果的智能手機助手 SIRI 和IBM 的 Watson 智能問答系統)依賴于海量自然語言文本的分析和了解。然而在過去幾十年裡,絕大多數計算機自然語言處理技術僅利用了句子的表層詞法和句法資訊[1] 。與之相對的是,人類了解自然語言會利用到許多語言深層資訊,甚至很多外部世界知識[2-3] 。通過建立文本中實體名與知識圖譜中真實世界實體之間的關聯,實體消歧可以有效地在自然語言了解過程中引入知識圖譜中存儲的大量世界知識,進而為基于知識的自然語言了解奠定基礎。

目前實體消歧的主流技術是實體連結 (EntityLinking) 技術,下面分别從任務、系統、主要技術挑戰、發展趨勢等多個方面來介紹實體連結。

繼續閱讀