《中國人工智能學會通訊》——6.6 實體消歧技術研究

2021-11-10 15:53:44

實體是文本資訊的重要承載，每一段有意義的文本都描述了一組實體及這些實體互相之間的關聯和互動。識别并了解文本中的實體資訊也就成為了自然語言了解的基礎問題之一。

然而，文本中實體資訊的了解存在兩方面的挑戰。首先，文本中的實體名通常具有歧義。例如，給定如下三個包含“蘋果”的句子：

●　今天上午蘋果由喬布斯發布了新一代iPhone。

●　我早餐吃了一個蘋果。

●　範冰冰在蘋果中演的不錯。

上述三個句子中的 “蘋果”分别指向實體“蘋果公司”、“水果蘋果”及“電影蘋果”。其次，實體的提及（mention）形式具有多樣性，也就是人們可能會用不同的實體名來指向同一個實體。例如，在提到 IBM 公司時，人們可以使用 IBM、Big Blue 或 International Business MachinesCorporation 等不同名字。為解決實體名的歧義性和多樣性問題，在許多應用中需要确定實體名所指向的真實世界實體，也就是實體消歧 (EntityDisambiguation)。圖1展示了一個實體消歧的示例。

随着大資料時代的到來，實體消歧已經成為了許多重要應用和任務的基礎技術，在越來越多的地方發揮重要作用，例如：

知識圖譜的建構和補全。自然語言了解和類人智能推理一直是人工智能的長期目标之一。然而上述兩項任務都依賴于海量的世界知識，也就是知識圖譜的幫助。通過識别知識圖譜中特定實體在文本中的出現，同時發現文本中知識圖譜未覆寫的實體，實體消歧在知識圖譜的建構和補全上都起到重要作用。

基于知識的自然語言了解。近年來越來越多的智能資訊服務（如蘋果的智能手機助手 SIRI 和IBM 的 Watson 智能問答系統）依賴于海量自然語言文本的分析和了解。然而在過去幾十年裡，絕大多數計算機自然語言處理技術僅利用了句子的表層詞法和句法資訊[1] 。與之相對的是，人類了解自然語言會利用到許多語言深層資訊，甚至很多外部世界知識[2-3] 。通過建立文本中實體名與知識圖譜中真實世界實體之間的關聯，實體消歧可以有效地在自然語言了解過程中引入知識圖譜中存儲的大量世界知識，進而為基于知識的自然語言了解奠定基礎。

目前實體消歧的主流技術是實體連結 (EntityLinking) 技術，下面分别從任務、系統、主要技術挑戰、發展趨勢等多個方面來介紹實體連結。

《中國人工智能學會通訊》——6.6 實體消歧技術研究

繼續閱讀

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

EGORefreshTableHeaderView 解讀代碼解讀 ELTableViewController 的使用寫在最後

今日頭條iOS用戶端啟動速度優化技術調研實測資料

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark