天天看點

人工智能之知識圖譜概述(一)碎碎念第一章 概念第二章 技術人才篇第三章 應用篇第四章 趨勢篇

文章目錄

  • 碎碎念
  • 第一章 概念
    • 一、知識圖譜概念和分類
      • 1、知識圖譜的概念
      • 2、知識圖譜的分類
    • 二、知識工程發展曆程
    • 三、知識圖譜的知識圖譜
  • 第二章 技術人才篇
    • 1、知識表示與模組化
      • (1)知識表示模型
      • (2)知識表示學習
      • (3)知識表示與模組化人才介紹
    • 2、知識擷取
      • (1)實體識别與連結
        • ① 傳統統計模型方法
        • ② 深度學習方法
        • ③ 文本挖掘方法
      • (2)實體關系學習
        • ① 限定域關系抽取 vs. 開放域關系抽取
        • ② 基于規則的關系抽取 vs. 基于機器學習的關系抽取
      • (3)事件知識學習
        • ① 事件識别和抽取
        • ② 事件檢測和追蹤
        • ③ 事件知識庫建構(起步階段)
      • (4)知識擷取人才介紹
    • 3、知識融合
      • (1)本體比對
      • (2)執行個體比對
      • (3)知識融合人才介紹
    • 4、知識圖譜查詢和推理計算
      • (1)知識推理
        • ① 基于符号的并行知識推理
        • ② 連結預測
        • ③ 模式歸納方法
      • (2)知識存儲和查詢
        • ① 基于關系資料模型的 RDF 資料存儲和查詢
        • ② 基于圖模型的 RDF 資料存儲和查詢
      • (3) 知識查詢與推理人才介紹
    • 5、知識應用
      • (1)典型應用
        • ① 語義搜尋
        • ② 智能問答
        • ③ 可視化決策支援
      • (2)通用和領域知識圖譜
      • (3)知識應用人才介紹
    • 6、高引論文(Top10)
  • 第三章 應用篇
    • 1、通用知識圖譜應用
    • 2、領域知識圖譜應用
  • 第四章 趨勢篇

碎碎念

工作中心已經轉移到現在的知識圖譜,最近找到了一個很新的綜述報告,資源如下,先對知識圖譜進行整體把握,再逐漸對各個關鍵技術進行學習。

傳送門:

  1. 網站位址:2019年第二期《人工智能之知識圖譜》
  2. 檔案網盤位址:連結,提取碼:putq
人工智能之知識圖譜概述(一)碎碎念第一章 概念第二章 技術人才篇第三章 應用篇第四章 趨勢篇

第一章 概念

一、知識圖譜概念和分類

1、知識圖譜的概念

知識工程(費根鮑姆,1994):将知識內建到計算機系統進而完成隻有特定領域專家才能完成的複雜任務。

知識圖譜(Knowledge Graph) 以結構化的形式描述客觀世界中概念、實體及其之間的關系,已經成為網際網路知識驅動的智能應用的 基礎設施。

幾個概念:

  • 實體:指的是具有可差別性且獨立存在的某種事物。實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。eg:某一個人、某一座城市、某一種植物、某一件商品等
  • 概念:具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。
  • 屬性:用于區分概念的特征,不同概念具有不同的屬性。
    • 對象屬性:屬性值對應的是概念或實體;
    • 資料屬性:屬性值是具體的數值;

知識圖譜作用:利用知識工程為大資料添加語義/知識,使資料産生智慧(Smart Data),完成從資料到資訊到知識,最終到智能應用的轉變過程,進而實作對大資料的洞察、提供使用者關心問題的答案、為決策提供支援、改進使用者體驗等目标。

知識圖譜主要應用:知識融合、語義搜尋和推薦、問答和對話系統、大資料分析與決策。

2、知識圖譜的分類

按領域方面分類:

  • 通用知識圖譜:面向通用領域的“結構化的百科

    知識庫”。

  • 特定領域知識圖譜(行業知識圖譜,垂直知識圖譜):面向某一特定領域,可看成是一個“基于語義技術的行業知識庫”

二、知識工程發展曆程

知識工程發展曆程 的 五個标志性階段:前知識工程時期、專家系統時期、網際網路 1.0 時期,群體智能時期以及知識圖譜時期

人工智能之知識圖譜概述(一)碎碎念第一章 概念第二章 技術人才篇第三章 應用篇第四章 趨勢篇
  • 圖靈測試—知識工程誕生前期(1950-1970 時期)
    • 主要方法:符号主義 和 連接配接主義
    • 代表工作:通用問題求解程式(GPS):将問題進行形式化表達,通過搜尋,從問題初始狀态,結合規則或表示得到目标狀态。
    • 典型應用:博弈論和機器定理證明等
    • 知識表示方法:邏輯知識表示、産生式規則、語義網絡等。
    • 先驅:Minsky, Mccarthy 和 Newell 以 Simon 四位學者因為他們在感覺機、人工智能語言和通用問題求解和形式化語言方面
  • 專家系統—知識工程蓬勃發展期(1970-1990 時期)
    • 主要方法:“知識庫 + 推理機”實作的限定領域專家系統
    • 典型系統:MYCIN、DENRAL 、XCON等
    • 知識表示方法:架構、腳本等
  • 網際網路(1990-2000 時期)
    • 主要方法:基于網際網路,使用HTML、XML語言
    • 典型知識庫:WordNet、Cyc、HowNet等
    • 知識表示方法:本體
  • 群體智能(2000-2006 時期)
    • 主要方法:Web,旨在對網際網路内容進行結構化語義表示, 利用本體描述網際網路内容的語義結構,通過對網頁進行語義辨別得到網頁語義資訊,進而獲得網頁内容的語義資訊, 使人和機器能夠更好地協同工作。
    • 知識表示方法:RDF(資源描述架構)和 OWL(網際網路本體表述語言)
    • 典型應用:維基百科,使用者去建立知識
  • 知識圖譜—知識工程新發展時期(2006 年至今)
    • 主要方法:知識擷取是自動化的,并且在網絡規模下運作。
    • 典型KG:基于RDF資料模型的DBpedia、Freebase、KnowItAll、WikiTaxonomy和 YAGO,以及BabelNet、ConceptNet、DeepDive、 NELL、 Probase、 Wikidata、 XLORE、 Zhishi.me、 CNDBpedia 等;
    • 應用:語義搜尋、問答系統與聊天、大資料語義分析以及智能知識服務等

三、知識圖譜的知識圖譜

熱門領域:知識表示(knowledge representation)、知識擷取(knowledge acquisition)、知識推理(knowledge reasoning)、知識內建(knowledge integration)和知識存儲(knowledge storage) 等。

第二章 技術人才篇

知識圖譜技術(五個方面):知識表示與模組化、知識擷取、知識融合、知識圖譜查詢和推理計算及知識應用技術 。

知識圖譜領域頂級學術會議清單

會議簡稱 會議全稱
ACL Association of Computational Linguistics
EMNLP Empirical Methods in Natural Language Processing
WWW International World Wide Web Conference
ISWC International Semantic Web Conference
IJCAI International Joint Conference on Artificial Intelligence
AAAI National Conference of the American Association for Artificial Intelligence
COLING International Conference on Computational Linguistics
KR International Conference on Principles of KR & Reasoning
KDD ACM International Conference on Knowledge Discovery and Data Mining
CIKM ACM International Conference on Information and Knowledge Management

1、知識表示與模組化

人類心智差別于其它物種心智的重要特征:具有擷取、表示和處理知識的能力。

(1)知識表示模型

關鍵點:機器必須要掌握大量的知識,特别是常識知識才能實作真正類人的智能。

技術發展三階段:

  • 基于符号邏輯進行知識表示和推理
    • 包括:邏輯表示法(如一階邏輯、描述邏輯)、産生式表示法和架構表示等。
  • 基于離散符号的知識表示技術
    • 包括:基于标簽的半結構置智語言XML、基于網際網路資源語義中繼資料描述架構 RDF和基于描述邏輯的本體描述語言 OWL等
    • most:基于 RDF 三元組的表示方法
  • 連續向量方式表示知識
    • 典型:詞向量等嵌入(Embedding)方式
    • 包括:TransE 翻譯模型、SME、、SLM、NTN、MLP,以及 NAM 神經網絡模型等
    • 知識圖譜嵌入也通常作為一種類型的先驗知識輔助輸入到很多深度神經網絡模型中,用來限制和監督神經網絡的訓練過程。
    • 特點:可規模化擴充
人工智能之知識圖譜概述(一)碎碎念第一章 概念第二章 技術人才篇第三章 應用篇第四章 趨勢篇

(2)知識表示學習

知識表示學習主流方法:将實體和關系表示為稠密的低維向量實作了對實體和關系的分布式表示, 已經成為知識圖譜語義連結預測和知識補全的重要方法。

優點:顯著提升計算效率,有效緩解資料稀疏,實作異質資訊融合并有助于實作知識融合。

代表方法

  • 複雜關系模組化 ——孤立學習每個三元組
    • TransE模型:将知識庫中的關系看作實體間的某種平移向量,可用于大規模知識圖譜,但不善于處理知識庫的複雜關系。
    • TransH 模型和 TransR 模型:可以讓一個實體在不同關系下擁有不同表示、認為不同關系擁有不同語義空間讓一個實體在不同關系下擁有不同表示、認為不同關系擁有不同語義空間。
    • TransD 模型和 TranSparse 模型:對TransH 模型和 TransR 模型中矩陣參數過多問題改進優化;
    • TransG 模型和 KG2E模型:利用高斯分布來表示知識庫中的實體和關系,并考慮實體和關系本身語義上不确定性。
  • 關系路徑模組化(初步)——考慮關系路徑的表示學習方法
    • Path-based TransE(PTransE)模型
    • 相關實驗表明:考慮關系路徑能夠極大提升知識表示學習的區分性,提高在知識圖譜補全等任務上的性能。

(3)知識表示與模組化人才介紹

Gerhard Weikum(薩爾大學)

  • YAGO 知識庫創始人之一,資訊抽取與知識挖掘、資料庫與資訊系統領域著名研究專家。
    • YAGO 知識庫主要內建了 Wikipedia、WordNet 和 GeoNames三個來源的資料,擁有千萬級實體知識,包含超過 1.2 億條三元組知識,能夠将 WordNet 的詞彙定義與 Wikipedia 的分類體系進行了融合內建。 YAGO 還考慮了時間和空間知識,為很多知識條目增加了時間和空間次元的屬性描述,具有更加豐富的實體分類體系,經過人工評估證明确認,準确度達到 95%。
  • 研究方向:研究涵蓋知識擷取表示、分布式資訊系統、資料庫性能優化與自主計算、資訊檢索與資訊提取等方向, 2006 年前後側重于知識庫的研究,并在此方向做出了持續性探索。

Tom M. Mitchell(卡内基梅隆大學)

  • Tom M. Mitchell, NELL 系統、心靈閱讀智能計算機系統核心研發成員。
    • NELL 系統目标是能夠開發用自然語言回答使用者提出的問題的方法,而不需要人為幹預,自 2010 年初以來, NELL 系統始終保持全天候運作的工作狀态,篩選數億個網頁,尋找已知資訊與搜尋過程中發現的資訊之間的聯系并建立新的連接配接,模仿人類學習新資訊方式的方式。
  • 研究方向:知識表示、知識庫建構、 機器學習、 人工智能,機器人和認知神經科學等方向

Ian Horrocks(牛津大學)

  • 描述邏輯推理系統、網絡本體語言 OWL 創始者。
  • 研究方向(現階段):知識表示和推理,特别是描述邏輯的本體語言和表格決策程式的優化,他所完成的關于描述邏輯的表象推理研究已經成為大多數描述邏輯推理系統的基礎。

王海勳(Google Research)

  • 研究方向(現階段):語義網絡、自然語言處理、資料管理與普适計算等。

唐傑(清華大學)

  • 研究者社會網絡 AMiner 大資料平台創始人

2、知識擷取

(1)實體識别與連結

實體識别與連結是海量文本分析的 核心技術,也是知識圖譜建構、知識補全與知識應用的核心技術,是計算機類人推理和自然語言了解提供知識基礎。

  • 實體識别:是文本了解意義的基礎,也就是識别文本中指定類别實體的過程,可以檢測文本中的新實體,并将其加入到現有知識庫中。
  • 實體連結:識别出文本中提及實體的詞或者短語并與知識庫中對應實體進行連結的過程,通過發現現有實體在文本中的不同出現,可以針對性的發現關于特定實體的新知識。

常用的三種統計模型方法:傳統統計模型方法、深度學習方法、文本挖掘方法

① 傳統統計模型方法

實體識别

  • 基本思想:将實體識别任務形式化為從文本輸入到特定目标結構的預測,使用統計模型來模組化輸入與輸出之間的關聯,并使用機器學習方法來學習模型的參數。
  • 常用方法:最大熵分類模型、SVM 模型、隐馬爾可夫模型、條件随機場模型。
  • 代表方法:條件随機場模型,将實體識别問題轉化為序列标注問題。

實體連結:

  • 核心:計算實體提及(mention)和知識庫中實體的相似度,并基于上述相似度選擇特定實體提及的目标實體。
    • 過程的核心:挖掘可用于識别提及(mention)目标實體互相關聯的證據資訊。
    • 證據資訊:實體統計資訊、名字統計資訊、上下文詞語分布、實體關聯度、文章主題等資訊。
    • 考慮到一段文本中實體之間的互相關聯,相關的全局推理算法也被提出用來尋找全局最優決策。

缺點:

  • 需要大量的标注語料,在開放域或Web環境下的資訊抽取系統會遇到标注語料的瓶頸。
  • 需要人工建構大量的特征,其訓練并非一個端到端的過程。

==》解決方法:弱監督或無監督政策

  • eg:半監督算法、遠距離監督算法、基于海量資料備援性的自學習方法

② 深度學習方法

實體識别:

  • NN-CRF 架構:CNN/LSTM 被用來學習每一個詞位置處的向量表示,基于該向量表示, NN-CRF 解碼該位置處的最佳标簽。
  • 滑動視窗分類思想:使用神經網絡學習句子中的每一個 N-Gram 的表示,然後預測該 N-Gram 是否是一個目标實體。

實體連結:

  • 核心:建構多類型多模态上下文及知識的統一表示,并模組化不同資訊、不同證據之間的互相互動。通過将不同類型的資訊映射到相同的特征空間,并提供高效的端到端訓練算法。
  • 相關工作:多源異構證據的向量表示學習、以及不同證據之間相似度的學習等。

優點:

  • 端到端,無需人工定義相關特征;
  • DL可以學習任務特定的表示,建立不同模态、不同類型、不同語言之間資訊的關聯,進而取得更好的實體分析性能。

研究熱點:如何在深度學習方法中融入知識指導(如語言學結構限制、知識結構)、考慮多任務之間的限制、以及如何将深度學習用于解決資源缺乏問題。

③ 文本挖掘方法

文本挖掘方法:

  • 定義:應用于半結構Web資料源上的語義知識擷取;
  • 核心:從特定結構(如清單、 Infobox)建構實體挖掘的特定規則。
  • 典型系統:DBPedia、 YAGO、BabelNet、 NELL 和 Kylin 等
  • 基于特定算法來對語義知識進行評分和過濾
    • 目的:規則本身可能帶有不确定性和歧義性,同時目标結構可能會有一定的噪音;
  • 實體擷取常采用Bootstrapping政策;
    • 典型系統: TextRunner 系統和 Snowball 系統
  • 語義漂移問題
    • 典型方法:互斥 Bootstrapping 技術、 Co-Training 技術和 Co-Bootstrapping 技術。

研究熱點:如何結合文本挖掘方法(面向半結構化資料,抽取出的知識品質高但覆寫度低)和文本抽取方法(面向非結構化資料,抽取出的知識相比文本挖掘方法品質低但覆寫度高)的優點,融合來自不同資料源的知識,并将其與現有大規模知識庫內建

(2)實體關系學習

實體關系:兩個或多個實體間的某種聯系,用于描述客觀存在的事物之間的關聯關系。

關系抽取(也稱實體關系學習):自動從文本中檢測和識别出實體之間具有的某種語義關系,是知識圖譜自動建構和自然語言了解的基礎。

  • 預定義關系抽取:系統所抽取的關系是預先定義好的,如上下位關系、國家—首都關系等。
  • 開放關系抽取:不預先定義抽取的關系類别,由系統自動從文本中發現并抽取關系。

① 限定域關系抽取 vs. 開放域關系抽取

限定域關系抽取(研究熱點):系統所抽取的關系是預先定義好的(有限個數),可以抽取語義化的實體關系三元組,來輔助其他業務。

開放域關系抽取:由系統自動從文本中發現、抽取關系。難以抽取語義化三元組。

② 基于規則的關系抽取 vs. 基于機器學習的關系抽取

基于規則的關系抽取方法:

  • 規則設計:首先由專家根據抽取任務的要求設計出一些包含詞彙、句法和語義特征的手工規則(或稱為模式),
  • 模式比對:然後在文本分析的過程中尋找與這些模式相比對的執行個體,進而推導出實體之間的語義關系。

基于機器學習的關系抽取

  • 無監督關系抽取:把表示相同關系的模版聚合起來,不需要人工标注的資料。
  • 有監督關系抽取:使用人工标注的訓練語料進行訓練,由于資料需要人工标注,難以應用到大規模場景。
  • 弱監督關系抽取(研究熱點):
    • 代表方法:利用知識庫回标文本來自動獲得大量的弱監督資料

(3)事件知識學習

事件:促使事物狀态和關系改變的條件,是動态的、結構化的知識。

事件知識學習:将非結構化文本中自然語言所表達的事件以結構化的形式呈現,對于知識表示、了解、計算和應用意義重大。

資料來源形式:已有的結構化的語義知識、資料庫的結構化資訊資源、半結構化資訊資源以及非結構化資源。

① 事件識别和抽取

基于模式比對的事件抽取

  • 定義:采用模式比對的方法對某種類型事件的識别和抽取。
  • 步驟:模式擷取(關鍵)、模式比對。
    • 按照模式建構過程中所需訓練資料的來源可細分為:基于人工标注語料的方法和弱監督的方法

基于機器學習的事件抽取

  • 定義:建立在統計模型基礎上的多分類問題。
  • 研究重點:特征選擇 和 分類器選擇。
  • 方法(三類):
    • 基于特征的方法:
      • 研究重點:如何提取和內建具有區分性的特征(局部和全局特征)
      • 多用于階段性的管道(Pipeline )抽取,即順序執行事件觸發詞識别和元素抽取.
    • 基于結構的方法:将事件結構看作依存樹,抽取任務則相應地轉化為依存樹結構預測問題,觸發詞識别和元素抽取可以同時完成。
    • 神經網絡的方法:
      • 利用CNN抽取特征完成兩階段的識别任務,以便更好地考慮事件内部結構和各個元素間的關系。
      • 将聯合抽取模型與 RNN 相結合,利用帶記憶的雙向 RNN 抽取句子中的特征,并聯合預測事件觸發詞和事件元素,進一步提升了抽取效果。

② 事件檢測和追蹤

基于相似度的方法

  • 過程:首先需要定義相似度度量,而後基于此進行聚類或者分類。
  • 典型方法:VSM(向量空間模型)+ 組平均聚類(Group Average Clustering, GAC)\ 單一通過法(Single Pass Algorithm, SPA)
    • GAC 隻适用于曆史事件發現,它利用分治政策進行聚類。
    • SPA 可以順序處理文檔并增量式産生聚類結果,能同時應用于曆史事件發現和線上事件發現。

機率統計方法(研究熱點)

  • 通常使用生成模型,适用于曆史事件檢測(有大量資料支援)。
  • 特點:模型複雜,但當資料充足時,準确率更高。
  • 研究方向:針對新聞等比較正式的規範文檔、用于不規則或沒有規律的非規範文檔

③ 事件知識庫建構(起步階段)

事件知識學習的最終目的:從非結構化的文本資料中抽取結構化的事件表示,建構事件知識庫彌補現有知識圖譜的動态事件資訊缺失問題。

研究方向:基于句子級的事件抽取、文檔級的事件發現。

(4)知識擷取人才介紹

Christopher D.Manning(斯坦福 NLP 實驗室)

  • 研究方向:知識管理、計算機科學、自然語言處理等方向,2000年後開始對知識應用領域的研究工作;
  • 斯坦福 NLP 小組:工作範圍從計算語言學的基礎研究到人類語言技術的關鍵應用,涵蓋句子翻譯、句法分析與标記、自動問答、機器翻譯、文本及視覺場景模拟等領域。

韓家炜(美國伊利諾伊大學厄巴納-香槟分校)

  • 研究方向:知識擷取、資料挖掘、資料庫系統、關聯規則、時空資料挖掘、 Web 資料及資訊網絡資料等方向,側重于資料挖掘。

Ralph Grishman(紐約大學數學科學院計算機科學)

  • 研究方向:自然語言處理、資訊檢索、資訊抽取、語義學、知識擷取、機器翻譯等方向,後來側重于資訊抽取的研究。
  • 代表方法:“MENE”的統計命名實體識别系統(“A maximum entropy approach to named entity recognition”)

周國棟(蘇州大學計算機科學與技術學院)

  • 研究方向:自然語言處理、知識擷取、資訊抽取、隐馬爾科夫模型研究等方向

黃萱菁(複旦大學計算機科學技術學院)

  • 研究方向:問答系統、自然語言處理、中文資訊編譯等方向。

3、知識融合

知識圖譜的多樣性和異構性:由于資料來源廣泛、品質參差不齊造成的。

語義內建:将不同的知識圖譜融合為一個統一、一緻、簡潔的形式,為使用不同知識圖譜的應用程式間的互動建立操作性。

  • 常用技術:本體比對(也稱為本體映射)、實體比對(也稱為實體對齊、對象公指消解)以及知識融合等

常見流程:

  • 包括(5 個環節):輸入、預處理、比對、知識融合和輸出
    人工智能之知識圖譜概述(一)碎碎念第一章 概念第二章 技術人才篇第三章 應用篇第四章 趨勢篇
  1. 輸入:待內建的若幹個知識庫以及配置、外部資源等。

    (1)待內建的知識庫格式一般為 RDF/OWL 資料檔案或 SPARQL 端點(endpoint)

    (2)外部資源是語義內建過程中使用到的背景知識,例如字/辭典背景知識(例如 WordNet)、常識背景知識(例如 Cyc)、實時背景知識(例如搜尋引擎)等。

  2. 預處理:對輸入知識庫進行清洗和後續步驟的準備。

    (1) 清洗:解決輸入品質問題,與自有文本不同,知識庫通常基于 RDF/OWL 語言建構,品質較好。

    (2)後續步驟的準備:包括配置和資料兩方面。

  3. 比對:

    (1)根據比對對象的不同,比對一般分為本體比對和實體比對兩方面。

    (2)文本相似性度是發現比對的最基礎方法,大緻可分為四種類型:基于字元的(例如 Leven-shtein 編輯距離)、基于單詞的(例如 Jaccard 系數)、混合型(例如 soft TF-IDF)和基于語義的(例如 WordNet)

  4. 知識融合:一般通過沖突檢測、真值發現等技術消解知識內建過程中的沖突,再對知識進行關聯與合并,最終形成一個一緻的結果。
  5. 輸出:語義集的輸出是一個統一的、一緻的、簡潔的知識庫

(1)本體比對

現狀:現有大多數本體比對方法處理的是成對的本體,但是成對比對方法在同時比對多個本體時會産生一些問題,最主要的問題是它們得到的結果從全局看可能存在沖突。

  • 典型方法:LPHIM 多文本全體比對方法——能夠在比對多個本體的同時保證結果是全局最優解

跨語言本體比對:更加困難,特别是影響文本相似性度量的準确性。

  • 典型方法: EAFG 和雙語主題模型

(2)執行個體比對

研究熱點:衆包和主動學習等人機協作方法。 這些方法雇傭普通使用者,通過付出較小的人工代價來獲得豐富的先驗資料,進而提高比對模型的性能。

基于表示學習的方法:

  • 将實體、關系等 ==》低維空間中的實質向量(即分布式語義表示),并在知識圖譜補全、知識庫問答等應用中取得了不錯的效果。

基于強化學習的語義內建方法——新動向

  • 典型方法:ALEX 是一個通過利用使用者提供的查詢答案回報來提高執行個體比對品質的系統,它将每個比對視作一個狀态,使用者回報被轉換為行為獎勵,通過最大化收集到的行為獎勵改善政策

(3)知識融合人才介紹

Renée J. Miller(NSERC 商業智能戰略網絡,多倫多大學)

  • 研究方向:研究涵蓋資料交換、知識融合、資料內建、知識管理和資料共享等方向

Felix Naumann(哈索·普拉特鈉數字工程研究院)

  • 研究方向:資料挖掘、資料完整性、知識融合等方向

Roberto Navigli(羅馬大學計算機科學系)

  • BabelNet的創始人, BabelNet是最大的高品質多語言百科全書計算機辭典。

蘇儉(大規模技術部署首席專家、 BIRC 自然語言處理部門主管、聯合主任等)

  • 研究方向:機器學習、資訊提取、情感分析,文本挖掘、機器翻譯、自然語言處理等方向, 2012 年前後開始專注研究所學生物資訊。

Jérôme Euzenat(法國國家計算機科學與控制研究中心,NIRIA)

  • 研究方向:語義知識表示、本體比對等,并著有《Ontology Matching》

4、知識圖譜查詢和推理計算

(1)知識推理

知識推理:從給定的知識圖譜推導出新的實體跟實體之間的關系。在知識計算中具有重要作用,如知識分類、知識校驗、知識連結預測與知識補全等。

方法分類:基于符号的推理和基于統計的推理

  • 基于符号的推理
    • 一般是基于經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說預設邏輯)
    • 從一個已有的知識圖譜推理出新的實體間關系,可用于建立新知識或者對知識圖譜進行邏輯的沖突檢測。
  • 基于統計的方法
    • 一般指關系機器學習方法,即通過統計規律從知識圖譜中學習到新的實體間關系。

① 基于符号的并行知識推理

基于多核、多處理器技術的大規模推理:

  • 單機環境(并行技術:共享記憶體模型——提升本體推理時間效率,适用于實時性較高的場景)

基于分布式技術的大規模推理:

  • 多機搭建叢集——突破大規模資料的處理界限
  • 很多工作基于 MapReduce 提出大規模本體的推理方法
    • 代表方法:推理系統 WebPIE(2010年, Urbani 等)

② 連結預測

基于表示學習的方法:

  • 分布式表示:将實體與關系統一映射至低維連續向量空間——刻畫語義特征,推斷實體和實體之間潛在關系。

基于圖特征的方法:

  • 思想:利用抽取出的圖特征來預測兩個實體間可能存在的不同類型的邊(關系)。
  • eg:根據兩個實體“姚明”和“葉莉”在KG中的聯通路徑可預測他們之間大機率具備“配偶”關系。

③ 模式歸納方法

基于 ILP 的模式歸納方法:

  • 向下精化算子學習 ALC 的概念定義公理(Jens Lehmann 等)
  • 相關算法實作:本體學習工具 DL-Learner

基于關聯規則挖掘的模式歸納方法:

  • 利用謂詞偏好因子度量方法以及謂詞語義相似度學習相反和對稱公理;
  • 利用模式層資訊給規則的挖掘提供更多的語義;
  • 對傳統關聯規則挖掘技術進行了改進,事務表中用 0 到 1 之間的一個實數代替原來的 0 或者 1,使得提出的方法更符合語義資料開放的特點

基于機器學習的模式歸納方法:

  • 利用聚類的算法學習關系的定義域和值域;
  • 應用統計的方法過濾屬性的使用,并找出準确、健壯的模式,用于學習屬性的數量限制公理。

(2)知識存儲和查詢

以圖(Graph)的方式來展現實體、事件及其之間的關系。

研究内容:研究如何設計有效的存儲模式支援對大規模圖資料的有效管理,實作對知識圖譜中知識高效查詢。

① 基于關系資料模型的 RDF 資料存儲和查詢

簡單三清單:

  • 維護一張巨大的三元組表來管理 RDF 資料。
  • 表包含三列:主體、謂詞和客體(或者主體、屬性和屬性值)。
  • 查詢:将SPARQL轉換為SQL,根據SQL執行多次自連接配接操作得以最終解。

水準存儲:

  • 行:将每一個RDF主體(subject),
  • 列:包含該RDF資料集合中所有屬性。
  • 優點:設計簡單,易于回答面向某單個主體的屬性值的查詢(星狀查詢)。
  • 缺點:表中存在大量的列;表的稀疏性問題;水準存儲存在多值性的問題;資料的變化可能帶來很大的更新成本。

屬性表:

  • 為降低自連接配接操作次數,Jena利用聚類屬性表、Oracle利用分類屬性表等屬性表進行RDF資料管理。
  • 聚類屬性表:Jena 通過聚類的方式将一些類似的三元組聚類到一起,然後将每一個聚類的三元組統一到一張屬性表中進行管理;
  • 分類屬性表:利用 RDF 資源的類型資訊将三元組進行分類,相同類的三元組放到同一張表中;

垂直劃分政策——按照謂詞(或屬性)分割

  • 對 RDF 資料按照謂詞(或屬性)分割成若幹表的方法(SW-Store),具體而言, 将 RDF 三元組按照謂詞(或屬性)的不同分成不同的表,每張表能儲存在謂詞(或屬性)上相同的三元組。

全索引政策:

  • “全索引(exhaustive indexing)”政策。提高簡單三清單存儲的查詢效率

② 基于圖模型的 RDF 資料存儲和查詢

優點:最大限度的保持 RDF 資料的語義資訊,利于對語義資訊的

查詢。

SPARQL 查詢就可以視為在 RDF 資料圖上進行子圖比對運算。

  • 子圖比對運算(經典問題,NP難問題):給定一個資料圖和一個查詢圖,找出資料上所有與查詢圖子圖同态的位置。
  • 典型系統:gStore、TurboHOM++等

(3) 知識查詢與推理人才介紹

Frank Wolter(利物浦大學計算機)

  • 研究方向:模态邏輯、語義、邏輯推理、人工智能、知識表示與推理等方向,自 1994 年起在知識查詢與推理領域的研究從未間斷并屢次獲獎。

Diego Calvanese(KRDB,意大利波爾紮諾自由大學)

  • 研究方向:知識表示和推理、本體語言、描述邏輯、概念資料模組化、資料內建、圖形資料等方向。
  • 在 2005 年前後有大量研究成果産出,主要為邏輯描述與資料完整性方向,現階段負責 Euregio 知識營運支援、 SMartDF 等科研項目。

沈一棟(中國科學院軟體研究所)

  • 研究方向:邏輯描述、邏輯程式設計、資料挖掘、聯合查詢、知識推理與查詢等方向

漆桂林(東南大學)

  • 研究方向:知識庫建構與清理、知識挖掘、語義 Web、深度學習等方向, 2005 年至今在知識圖譜領域從事長期研究。

Meghyn Bienvenu(波爾多大學 LaBRI 研究實驗室)

  • 研究方向:邏輯模型、知識表示和推理、邏輯描述、聯合查詢等方向, 現階段的主要研究方向圍繞描述邏輯本體及其在查詢資料中的應用展開。

5、知識應用

(1)典型應用

知識圖譜的典型應用(KG + 業務場景)

  • 包括:語義搜尋、智能問答以及可視化決策支援三種。
  • 關鍵研究内容:如何針對業務需求設計實作知識圖譜應用,并基于資料特點進行優化調整。

① 語義搜尋

  • 語義搜尋:目前基于關鍵詞的搜尋技術在KG的知識支援下可以上升到基于實體和關系的檢索。
  • 作用:準确捕捉使用者搜尋意圖,解決關鍵字語義多樣性及語義消歧難題;
  • 結果:直接給出滿足使用者搜尋意圖的答案,而不是包含關鍵詞的相關網頁的連結;

② 智能問答

  • 問答系統(Question Answering, QA)任務:智能問答需要針對使用者輸入的自然語言進行了解,從知識圖譜中或目标資料中給出使用者問題的精準的自然語言形式的答案。
  • 關鍵技術及難點:準确的語義解析、正确了解使用者的真實意圖、以及對傳回答案的評分評定以确定優先級順序。

③ 可視化決策支援

  • 可視化決策支援:通過提供統一的圖形接口,結合可視化、推理、檢索等,為使用者提供資訊擷取的入口。
  • 關鍵問題:通過可視化方式輔助使用者快速發現業務模式、

    提升可視化元件的互動友好程度、以及大規模圖環境下底層算法的效率等。

(2)通用和領域知識圖譜

通用知識圖譜 vs. 領域知識圖譜

  • 相同:本質相同;
  • 不同:覆寫範圍與使用方式。
    • 通用知識圖譜:強調知識的廣度,可看成一個面向通用領域的結構化百科知識庫,其中包含了大量的現實世界中的常識性知識,覆寫面廣,通常運用百科資料進行自底向上(Top-Down)的方法進行建構。
    • 領域知識圖譜(行業知識圖譜、垂直知識圖譜):面向某一特定領域的基于語義技術的行業知識庫,有着嚴格而豐富的資料模式,應用需求各不相同,是以沒有一套通用的标準和規範來指導建構,需要基于特定行業通過工程師與業務專家的不斷互動溝通與定制來實作, 是以對該領域知識的深度、知識準确性有着更高的要求。

(3)知識應用人才介紹

Sophia Ananiadou(英國國家文本挖掘中心(NaCTeM),曼徹斯特大學)

  • 研究方向:資訊提取、文本挖掘、資料挖掘、自然語言處理、生物資訊、算法等方向,其中的文本挖掘方向貢獻顯著,為生物醫學領域提供了工具、資源、系統及基礎設施。
  • 現階段的研究側重于提高知識發現速度。

Sören Auer(漢諾威大學)

  • 研究方向:關聯資料、知識庫、文本分析、語義網絡、開放資料等方向,對語義網絡、 關聯資料的研究較為深入。

周明(微軟亞洲研究院)

  • 研究方向:機器翻譯、知識應用、統計模型、自然語言處理等方向。

趙軍(中國科學院自動化所模式識别國家重點實驗室)

  • 研究方向:問答系統、資訊提取、知識庫建構、自然語言處理、中文資訊處理等方向, 2005 年後在知識庫建構領域有持續性研究。

6、高引論文(Top10)

序号 paper
1

Distant supervision for relation extraction without labeled data

Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky.ACL/IJCNLP,2009.

2

You are where you tweet: a content-basedapproach to geo-locating twitter users

Zhiyuan Cheng, James Caverlee, and Kyumin Lee.CIKM,2010.

3

YAGO2: a spatially and temporally enhanced knowledge base from wikipedia

Johannes Hoffart, Fabian M. Suchanek, Klaus Berberich, and Gerhard Weikum.IJCAI,2013.

4

Knowledge vault: a web-scale approach to probabilistic knowledge fusion

Xin Dong 0001, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, and Wei Zhang.KDD,2014.

5

Robust disambiguation of namedentities in text

Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino, Hagen Fürstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, and Gerhard Weikum.EMNLP,2011.

6

BabelNet: building a very large multilingual semantic network

Roberto Navigli, and Simone Paolo Ponzetto.ACL,2010.

7

Driving with knowledge from the physical world

Jing Yuan, Yu Zheng, Xing Xie, and Guangzhong Sun.KDD,2011.

8

Open domain event extraction from twitter

Alan Ritter, Mausam, Oren Etzioni, and Sam Clark.KDD,2012.

9

Sentiment analysis of blogs by combining lexical knowledge with text classification57

Prem Melville, Wojciech Gryc, and Richard D. Lawrence. KDD,2009.

10

Open information extraction: the second generation

Etzioni, Oren and Fader, Anthony and Christensen, Janara and Soderland, Stephen and Mausam, Mausam. IJCAI, 2011

第三章 應用篇

人工智能之知識圖譜概述(一)碎碎念第一章 概念第二章 技術人才篇第三章 應用篇第四章 趨勢篇

1、通用知識圖譜應用

通用知識圖譜:

  • 面向通用領域的“結構化的百科知識庫”,其中包含了大量的現實世界中的常識性知識,覆寫面極廣。
  • 由于現實世界的知識豐富多樣且極其龐雜,通用知識圖譜主要強調知識的廣度,通常運用百科資料進行自底向上(Top-Down)的方法進行建構。

國外典型系統:

  • DBpedia :使用固定的模式從維基百科中抽取資訊實體,目前擁有 127 種語言的超過兩千八百萬實體以及數億 RDF 三元組;
  • YAGO: 則整合維基百科與 WordNet 的大規模本體,擁有 10 種語言約 459 萬個實體, 2400 萬個事實;
  • Babelnet: 則采用将 WordNet 詞典與Wikipedia 百科內建的方法,建構了一個目前最大規模的多語言詞典知識庫,包含 271 種語言 1400 萬同義詞組、 36.4 萬詞語關系和 3.8 億連結關系。

國内典型系統:

  • Zhishi.me: 從開放的百科資料中抽取結構化資料,目前已融合了包括百度百科、互動百科、中文維基三大百科的資料,擁有 1000 萬個實體資料、一億兩千萬個 RDF 三元組;
  • CN-DBPedia:以通用百科為主線,結合垂直領域的 CN-DBPedia,則從百科類網站的純文字頁面中提取資訊,經過濾、融合、推斷等操作後形成高品質的結構化資料;
  • XLore :則是基于中文維基百科、英文維基百科、百度百科、互動百科建構的大規模中英文知識平衡知識圖譜。

2、領域知識圖譜應用

領域知識圖譜

  • 用來輔助各種複雜的分析應用或決策支援,不同領域的建構方案與應用形式則有所不同

第四章 趨勢篇

知識類型與表示

  • 研究問題:面對包含大量實體及其之間的複雜關系的複雜知識,如何合理設計表示方案,更好地涵蓋人類不同類型的知識。

知識擷取

  • 研究問題:如何從網際網路大資料萃取知識,同時提升準确率、準确率和效率。

知識融合

  • 研究問題:多源異構資料(且存在大量噪聲和備援),或使用不同的語言的資料的有機融合。

知識應用

  • 研究問題:目前大規模知識圖譜的應用場景和方式比較有限,如何有效實作知識圖譜的應用,利用知識圖譜實作深度知識推理,提高大規模知識圖譜計算效率,需要人們不斷銳意發掘使用者需求,探索更重要的應用場景,提出新的應用算法。

趨勢:特色化、開放化、智能化

繼續閱讀