天天看點

《中國人工智能學會通訊》——6.14 知識圖譜中的推理技術

知識圖譜的概念由谷歌 2012 年正式提出,旨在實作更智能的搜尋引擎。知識圖譜本質上是一種叫做語義網絡(semantic network)的知識庫,即具有有向圖結構的一個知識庫,其中圖的結點代表實體(entity)或者概念(concept),而圖的邊代表實體 / 概念之間的各種語義關系,比如說兩個實體之間的相似關系。谷歌知識圖譜很重要的一部分是一個大規模的協同合作的知識庫,叫 Freebase。Freebase 采用的資料結構是圖模型,即可以把一個 Freebase 的知識庫看成是有向圖,這種資料模型相對于傳統資料庫的優勢在于可以處理更複雜的資料以及友善資料的插入。谷歌知識圖譜的模式(Schema)是由谷歌自己的專業團隊在 Freebase的基礎上開發和設計的。谷歌知識圖譜中,所有的對象都有屬于它的Type。Type的數量不是固定的,有一個資料結構 Collection 記錄的是計算機自動抽取出的類型,Collection 中有成千上萬種類型,有些今天生成後第二天就被删除了,有些則能長期的保留在 Collection 中。如果 Collection 中的某一種類型能夠長期的保留,發展到一定程度後,由專業的人員進行決策、命名,最後上升為一種 Type,作為 Knowledge Graph 的一種類型儲存在模式中。Knowledge Graph 的 Type 有音樂家、網球運動員等。不過谷歌的知識圖譜中的模式并沒有太多去考慮類型的層次性。

知識圖譜的概念于 2013 年以後開始在學術界和業界普及,并在智能問答、醫療、反欺詐等應用中發揮重要作用。雖然很多文獻都把知識圖譜看成是一個實體 - 關系的有向圖。但是也有一些觀點認為知識圖譜應該包含更抽象的概念之間的關系,比如說,谷歌和必應、雅虎一起推出了 Schema.org 1來提供一個覆寫廣泛主題(包括人物、地點、事件等)的模式(schema)。随着知識圖譜研究的深入,研究人員發現知識圖譜在應用中存在以下品質問題:第一個問題是知識圖譜的不完備性,即知識圖譜中有些關系會缺失;第二個問題是知識圖譜中存在錯誤的關系,這是因為知識圖譜的建構一般需要用到統計方法,而統計方法很難保證學習的知識是絕對正确的。這兩個問題對于智能問答等應用來說是很嚴重的,前者會導緻提出的問題沒有答案,而後者會導緻系統給出的答案是錯誤的。為了解決這兩個問題,就要求對知識圖譜的推理進行研究。知識庫推理可以粗略地分為基于符号的推理和基于統計的推理。在人工智能的研究中,基于符号的推理一般是基于經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說預設邏輯)。基于符号的推理可以從一個已有的知識圖譜推理出新的實體間關系,進而有助于解決第一個問題;而且基于符号的推理可以對知識圖譜進行邏輯的沖突檢測,進而有助于解決第二個問題。基于統計的方法一般指關系機器學習方法,通過統計規律從知識圖譜中學習到新的實體間關系,進而處理第一個問題;并且對新學到的關系進行評分,去掉那些可能錯誤的關系,進而處理第二個問題。下面分别就這兩類方法進行介紹。