知識圖譜
介紹
知識圖譜是通過将應用數學、圖形學、資訊可視化技術、資訊科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展曆史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。知識圖譜,本質上,是一種揭示實體之間關系的語義網絡。知識圖譜是由一條條知識組成,每條知識表示為一個SPO三元組(Subject-Predicate-Object)。
通俗的說知識圖譜主要目标是用來描述真實世界中存在的各種實體和概念,以及他們之間的強關系,我們用關系去描述兩個實體之間的關聯,例如姚明和火箭隊之間的關系,他們的屬性,我們就用“屬性--值對“來刻畫它的内在特性,比如說我們的人物,他有年齡、身高、體重屬性。知識圖譜可以通過人為建構與定義,去描述各種概念之間的弱關系,例如:“忘了訂單号”和“找回訂單号”之間的關系。
知識圖譜從語義角度出發,通過描述客觀世界中概念、實體及其關系,進而讓計算機具備更好地組織、管理和了解網際網路上海量資訊的能力。更具體的說,在人類與網際網路世界互動的過程中,産生了繁雜龐大的資訊,這些資訊一般被圖檔聲音文字視訊這些資料載體儲存。我們希望計算機可以分析閱讀了解這些資料,精準挖掘找到資料背後隐藏的有價值的知識,在使用者需要的時候提供知識服務。

應用
智能搜尋
使用者的查詢輸入後,搜尋引擎不僅僅去尋找關鍵詞,而是首先進行語義的了解。比如,對查詢分詞之後,對查詢的描述進行歸一化,進而能夠與知識庫進行比對。查詢的傳回結果,是搜尋引擎在知識庫中檢索相應的實體之後,給出的完整知識體系。
深度問答
能夠以準确簡潔的自然語言為使用者提供問題的解答。多數問答系統更傾向于将給定的問題分解為多個小的問題,然後逐一去知識庫中抽取比對的答案,并自動檢測其在時間與空間上的吻合度等,最後将答案進行合并,以直覺的方式展現給使用者。eg:蘋果智能手機助手Siri
社交網絡
Facebook于 2013 年推出了 Graph Search 産品,其核心技術就是通過知識圖譜将人、地點、事情等聯系在一起,并以直覺的方式支援精确的自然語言查詢,例如輸入查詢式:“我朋友喜歡的餐廳”“住在紐約并且喜歡籃球和中國電影的朋友”等,知識圖譜會幫助使用者在龐大的社交網絡中找到與自己最具相關性的人、照片、地點和興趣等。Graph Search 提供的上述服務貼近個人的生活,滿足了使用者發現知識以及尋找最具相關性的人的需求。
垂直行業應用
從領域上來說,知識圖譜通常分為通用知識圖譜和特定領域知識圖譜。在金融、醫療、電商等很多垂直領域,知識圖譜正在帶來更好的領域知識、更低金融風險、更完美的購物體驗。更多的,如教育科研行業、圖書館、證券業、生物醫療以及需要進行大資料分析的一些行業。這些行業對整合性和關聯性的資源需求迫切,知識圖譜可以為其提供更加精确規範的行業資料以及豐富的表達,幫助使用者更加便捷地擷取行業知識。
關鍵技術
知識抽取
-
實體抽取
在技術上我們更多稱為 NER(named entity recognition,命名實體識别),指的是從原始語料中自動識别出命名實體。由于實體是知識圖譜中的最基本元素,其抽取的完整性、準确、召回率等将直接影響到知識庫的品質。是以,實體抽取是知識抽取中最為基礎與關鍵的一步;
-
關系抽取
目标是解決實體間語義連結的問題,早期的關系抽取主要是通過人工構造語義規則以及模闆的方法識别實體關系。随後,實體間的關系模型逐漸替代了人工預定義的文法與規則。
-
屬性抽取
屬性抽取主要是針對實體而言的,通過屬性可形成對實體的完整勾畫。由于實體的屬性可以看成是實體與屬性值之間的一種名稱性關系,是以可以将實體屬性的抽取問題轉換為關系抽取問題。
知識融合
-
實體連接配接
實體消岐–專門用于解決同名實體産生歧義問題的技術。實體消岐主要采用聚類的方法,聚類法消歧的關鍵問題是如何定義實體對象與指稱項之間的相似度,常用的方法有:《1》空間向量模型《2》語義模型《3》社會網絡模型《4》百科知識模型
實體對齊–主要用于消除異構資料中實體沖突、指向不明等不一緻性問題,可以從頂層建立一個大規模的統一知識庫,進而幫助機器了解多源異質的資料,形成高品質的知識庫。對齊算法可以分為成對實體對齊和集體實體對齊,而集體實體對齊又可以分為局部集體實體對齊和全局集體實體對齊。
實體連接配接技術可以從整體層面分類如圖:
-
知識合并
合并外部知識庫—将外部知識庫融合到本地知識庫需要處理2個層面的問題。《1》資料層的融合,包括實體的指稱、屬性、關系以及所屬類别等,主要的問題是如何避免執行個體以及關系的沖突問題,造成不必要的備援。《2》通過模式層的融合,将新得到的本體融入已有的本體庫中。
-
知識加工
知識推理—知識推理是指從知識庫中已有的實體關系資料出發,經過計算機推理,建立實體間的新關聯,進而拓展和豐富知識網絡,知識推理是知識圖譜建構的重要手段和關鍵環節,通過知識推理,能夠從現有知識中發現新的知識。
品質評估—對知識庫的品質評估任務通常是與實體對齊任務一起進行的,其意義在于,可以對知識的可信度進行量化,保留置信度較高的,舍棄置信度較低的,有效保證知識的品質。
-
知識更新
人類所擁有資訊和知識量都是時間的單調遞增的函數,是以知識圖譜的内容也需要與時俱進,其建構過程是一個不斷疊代更新的過程。知識圖譜内容的更新有兩種方式:資料驅動下的全面更新和增量更新。
-
知識表示
雖然三元組的知識表示形式受到了人們的廣泛認可,但是其在計算效率、資料稀疏性等方面卻面臨着諸多問題。近年來,以深度學習為代表的學習技術取得了重要的進展,可以将實體的語義資訊表示為稠密低維的實值向量,進而在低維空間中高效計算實體、關系及其之間的複雜語義關聯,對知識庫的建構、推理、融合以及應用均具有重要的意義。
機器學習第一次作業
展望
知識圖譜肯定不是人工智能的最終答案,但知識圖譜這種綜合各項計算機技術的應用方向,一定是人工智能未來的形式之一。在未來的幾年時間内,知識圖譜毫無疑問将是人工智能的前沿研究問題。知識圖譜的重要性不僅在于它是一個全局知識庫,更是支撐智能搜尋和深度問答等智能應用的基礎,而且在于它是一把鑰匙,能夠打開人類的知識寶庫,為許多相關學科領域開啟新的發展機會。從這個意義上來看,知識圖譜不僅是一項技術,更是一項戰略資産。
我國先進和不足(卡脖子技術)
一些傳統的知識元素(實體、關系、屬性)抽取技術與方法,它們在限定領域、主題的資料集上獲得了較好的效果,但由于制約條件較多,算法準确性和召回率低,方法的可擴充能力不夠強,未能很好地适應大規模、領域獨立、高效的開放式資訊抽取要求。
目前存在的表示方式仍是基于三元組形式完成的語義映射,在面對複雜的知識類型、多源融合的資訊時,其表達能力仍然有限。是以有研究者提出,應針對不同的應用場景設計不同的知識表示方法。
知識加工是最具特色的知識圖譜技術,同時也是該領域最大的挑戰之所在。主要的研究問題包括:本體的自動建構、知識推理技術、知識品質評估手段以及推理技術的應用。目前,本體建構問題的研究焦點是聚類問題,對知識品質評估問題的研究則主要關注建立完善的品質評估技術标準和名額體系。知識推理的方法和應用研究是目前該領域最為困難,同時也是最為吸引人的問題,需要突破現有技術和思維方式的限制,知識推理技術的創新也将對知識圖譜的應用産生深遠影響
在知識更新環節, 增量更新技術是未來的發展方向,然而現有的知識更新技術嚴重依賴人工幹預。可以預見随着知識圖譜的不斷積累,依靠人工制定更新規則和逐條檢視的舊模式将會逐漸降低比重,自動化程度将不斷提高,如何確定自動化更新的有效性,也是該領域面臨的又一重大挑戰。
從工業界來說,阿裡和美團目前都在大力推進知識圖譜+推薦系統的結合,知識圖譜在大規模推薦系統中的應用場景非常廣闊。從學術界來說,知識圖譜+推薦系統其實做的還不多,方法也基本都是統計學習那一套,還是類似于黑盒模型。從推理的角度來做知識圖譜+推薦系統,無論是學術上還是實際部署中,都是一個非常有前景的方向。