天天看點

《中國人工智能學會通訊》——11.41 相關工作

接下來簡單介紹一下與實體連結相關的工作。學術界在很多年前已經意識到了實體排歧問題,并且提出了很多算法來解決這個問題。在傳統的實體指代消解問題[17–23]中不存在知識庫,它的任務是将出現在同一個文檔或者不同文檔中指代同一實體的實體名字識别出來,并将它們聚在一個類當中。而近年來出現的大量知識庫以及知識庫擴充的需求使得實體連結技術受到廣泛的關注。與傳統的實體指代消解問題相比,實體連結需要為在文本中發現的實體名字找到其在知識庫中的對應實體,同時知識庫中所擁有的關于實體的相關資訊(如實體描述文本等)在實體連結的過程中也起到非常關鍵的作用。

實體連結也與單詞詞義消歧任務[24] 比較相似。單詞詞義消歧任務是從字典中為文本中的每個單詞(而不是命名實體)找到其語義。該任務認為單詞字典是完備的,也就是說它認為單詞字典中包含全部單詞的所有語義資訊。而知識庫并不是完備的,例如,許多現實世界中不是很出名的普通實體并不存在于現有知識庫中。另外,實體連結任務中的實體名字形式多樣,如縮寫名、别名等。而單詞在文本中的出現除了單詞時态的不同外,一般沒有太多變化。

另一個相關任務是資料管理領域的記錄連接配接任務[25-30] ,它也被稱作實體解析、備援資料去重。它是指在不同資料庫中找出那些代表真實世界中同一實體的不同記錄的過程,比如,發現兩條不同論文記錄指代同一篇論文。大多數的記錄連接配接任務都是假設代表同一實體的不同記錄應該擁有相同或相似的屬性值,該任務主要關注字面層次的異構問題,将不同資料庫中指代同一實體的記錄識别出來。而在實體連結任務中同時存在多名問題和重名問題,它需要将非結構化文本中的實體名字連結到結構化知識庫中的對應實體。