一、知識圖譜的機遇與挑戰 ▌知識圖譜上半場 1. 傳統知識工程 2. 大資料知識工程 3. 大資料知識工程到底解決了哪些問題? ▌知識圖譜下半場 1. 應用場景轉變 2. 新的趨勢 3. 機遇 4. 應對政策 二、行業知識圖譜的建構與應用 1. 知識圖譜整體結構描述 2. 知識模組化 3. 知識抽取 4. 知識融合 5. 知識存儲 6. 知識計算 7. 知識應用 8. 知識圖譜的自動建構
【說在前面】本人部落格新手一枚,象牙塔的老白,職業場的小白。以下内容僅為個人見解,歡迎批評指正,不喜勿噴![認真看圖][認真看圖]
【補充說明】如果你對知識圖譜感興趣,歡迎先浏覽我的另一篇随筆:基于圖模型的智能推薦算法學習筆記
一、知識圖譜的機遇與挑戰
分享一下肖仰華教授的報告。報告深度剖析知識圖譜的發展程序,系統整理知識圖譜上半場的主要成果,分析知識圖譜下半場的挑戰與機遇,以期為各行業的認知智能實踐帶來有益的參考。
▌知識圖譜上半場
1. 傳統知識工程

2. 大資料知識工程
① 大規模簡單知識表示
② 知識擷取
③ 基于知識圖譜的簡單推理
3. 大資料知識工程到底解決了哪些問題?
① 語言表達鴻溝
② 缺失的因果鍊條
③ 碎片化資料的關聯與融合
④ 深化行業資料的了解與洞察
⑤ 顯著提升了機器的自然語言了解水準
⑥ 基于知識圖譜的大規模知識服務
⑦ 知識圖譜可視化已大量應用
⑧ 大資料知識工程理論體系日趨完善
▌知識圖譜下半場
1. 應用場景轉變
2. 新的趨勢
① 繁雜的應用場景
② 深度的知識應用
③ 密集的專家知識
④ 有限的資料資源
3. 機遇
4. 應對政策
知識表示方面:
① 與其他知識表示的協同表示與推理
② 知識圖譜的多模态表示
③ 知識圖譜的個性化表示
知識擷取方面:
① 發展低成本知識擷取方法
② 注重多粒度知識擷取
③ 發展大規模常識知識擷取
④ 複雜知識擷取機制與方法
知識應用方面:
① 知識圖譜應用透明化
② 基于知識圖譜的可解釋人工智能
③ 發展符号知識指導下的機器學習模型
▌總結
二、行業知識圖譜的建構與應用
分享一下PlantData的文章:行業知識圖譜建構與應用。
1. 知識圖譜整體結構描述
知識圖譜結構拓撲圖如圖所示:
企業全量資料應用挑戰及應對政策:
(1)多源異構資料難以融合
使用知識圖譜(本體)對各類資料模組化,基于可動态變化的資料模型(概念-實體-屬性-關系),實作統一模組化。
(2)資料模式動态變遷困難
使用可支援資料模式動态變化的知識圖譜的資料存儲。
(3)非結構化資料計算機難以了解
利用資訊抽取技術。
(4)資料使用專業程度過高
(5)分散的資料難以統一消費利用
在知識融合的基礎上,基于語義檢索、知識問答、圖計算、推理、可視化等技術,提供資料檢索/分析/利用,統一平台。
2. 知識模組化
(1)以實體為主體目标,實作對不同來源的資料進行映射與合并。(實體抽取與合并)
(2)利用屬性來表示不同資料源中針對實體的描述,形成對實體的全方位描述。(屬性映射與歸并)
(3)利用關系來描述各類抽象模組化成實體的資料之間的關聯關系,進而支援關聯分析。(關系抽取)
(4)通過實體連結技術,實作圍繞實體的多種類型資料的關聯存儲。(實體連結)
(5)使用事件機制描述客觀世界中動态發展,展現事件與實體間的關聯;并利用時序描述事件的發展狀況。(動态事件描述)
知識模組化工具:Protégé(本體編輯器,較局限)
3. 知識抽取
知識抽取的主要政策如圖所示(針對結構化、半結構化、非結構化資料的處理方式不同):
知識抽取中的文本資訊抽取,主要包括:實體識别、關系抽取、事件抽取、概念抽取。資訊抽取主要有兩大類工具:
- OpenIE:面向開放領域抽取資訊、關系類型事先未知、基于語言學模式進行抽取、規模大、精度相對較低。典型工具:ReVerb、TextRunner(準确率低,實用性不強,一般不用)
- CloseIE:面向特定領域抽取資訊、預先定義好抽取的關系類型、基于領域專業知識抽取、規模小、精度比較高。典型工具:DeepDive(主要是針對實體識别,缺乏對關系/事件/概念的抽取)
非結構化文本資料的處理包括以下步驟:
- 分詞、詞性标注、文法解析、依存分析
- NER命名實體識别、實體連結
- 關系抽取、事件抽取
其中,事件抽取可以分為預定義事件抽取和開放域事件抽取,行業知識圖譜中主要為預定義事件抽取。采用模式比對方法,包括三個步驟:
- 準備事件觸發詞表
- 候選事件抽取:尋找含有觸發詞的句子
- 事件元素識别:根據事件模版抽取相應的元素
還有基于機器學習模型的抽取:SVM、邏輯回歸、CRF、LSTM等:
補充說明,關于知識表示,歡迎先浏覽我的另一篇随筆:基于圖模型的智能推薦算法學習筆記,這裡不再贅述。
- 基于數理邏輯的知識表示:RDF(資源描述架構)、OWL(RDF Schema 的擴充)、SPARQL(RDF查詢語言)
- 基于向量空間學習的分布式知識表示:Rescal、NTN、TransE(Embedding)
4. 知識融合
(1)資料層融合:實體連結技術
即等同性判斷:給定不同資料源中的實體,判斷其是否指向同一個真實世界實體(實體屬性與關系的合并)。
- 基于實體知識的連結
- 基于篇章主題的連結
- 融合實體知識和篇章主題的連結
實體連結工具:Wikipedia Miner、DBpedia Spotlight等,大部分都是針對百科類的知識庫工作的,基本不支援中文的處理。
(2)語義描述層融合:Schema Mapping
- 概念上下位關系合并
- 概念的屬性定義合并
當然還有一些别的需要考慮,例如多源知識融合、沖突檢測與解決、跨語言融合、知識驗證等。
例如,通過人機互動接口對錯誤資訊進行人工糾正,并以此作為種子案例,通過強化學習加強模型的識别精度和魯棒性。
5. 知識存儲
知識圖譜是基于圖的資料結構,其存儲方式主要有兩種方式:RDF存儲和圖資料庫。
- 基于關系資料庫的存儲
- 基于原生圖的存儲
- 基于混合存儲
下面展示各大圖資料庫的對比:
6. 知識計算
(1)基于圖論的相關算法:
- 圖周遊:廣度優先周遊、深度優先周遊
- 最短路徑查詢: Dijkstra(迪傑斯特拉算法)、Floyd(弗洛伊德算法)
- 路徑探尋:給定兩個或多個節點,發現它們之間的關聯關系
- 權威節點分析:PageRank算法
- 族群發現:最大流算法
- 相似節點發現:基于節點屬性、關系的相似度算法
(2)本體推理:使用本體推理進行新知識發現或沖突檢測。
- 基于表運算及改進的方法:FaCT++、Racer、Pellet Hermit等
- 基于一階查詢重寫的方法(Ontology based data access,基于本體的資料通路)
- 基于産生式規則的算法(如rete):Jena 、Sesame、OWLIM等
- 基于Datalog轉換的方法:KAON、RDFox等
- 回答集程式Answer set programming
本體知識推理工具:RDFox。
(3)基于規則的推理:使用規則引擎,編寫相應的業務規則,通過推理輔助業務決策。
- 在知識圖譜基礎知識的基礎上,專家依據行業應用的業務特征進行規則的定義。
- 引擎基于基礎知識與所定義的規則,執行推理過程給出推理結果。
基于規則推理工具:Drools 規則定義。
7. 知識應用
智能問答(基于語義解析的方法+基于資訊檢索的方法)、語義搜尋(基于實體連結)、可視化決策支援(D3.js、ECharts)等。
舉例金融業的基于知識圖譜的風險管理:
- 知識擷取部分:需要内部+外部,需要特别注意完整性原則(資訊不對稱是很多風險的根源)
- 知識融合部分:需要内部+外部,需要特别注意準确性原則(本體一緻性、資料标準統一性、本地表現狀态一緻性)
- 知識計算部分:需要特别注意适用性原則
- 知識應用部分:人機互動接口
- 貸款全流程:有效控制貸款準入、提升貸款決策有效性
- 審批額度時:防止多頭授信、規避關聯企業互相擔保
- 貸後監控中:檢測資金流入關聯企業、參與民間借貸
- 保金過程中:識别企業的關聯資産、彌補損失
8. 知識圖譜的自動建構
可建構的圖譜:例如公司圖譜、産品圖譜、⼈物圖譜、智能預警等。在行業應用中使用知識圖譜,大緻有如下幾種方式:
- 可以使用現有的套裝工具,在現有套裝工具的基礎上進行擴充:LOD2、Stardog
- 可以使用各生命周期過程中的相應工具進行組合使用,針對性開發或擴充生命周期中特定工具
如果您對異常檢測感興趣,歡迎浏覽我的另一篇部落格:異常檢測算法演變及學習筆記
如果您對智能推薦感興趣,歡迎浏覽我的另一篇部落格:智能推薦算法演變及學習筆記 、CTR預估模型演變及學習筆記
如果您對時間序列分析感興趣,歡迎浏覽我的另一篇部落格:時間序列分析中預測類問題下的模組化方案 、深度學習中的序列模型演變及學習筆記
如果您對資料挖掘感興趣,歡迎浏覽我的另一篇部落格:資料挖掘比賽/項目全流程介紹 、機器學習中的聚類算法演變及學習筆記
如果您對人工智能算法感興趣,歡迎浏覽我的另一篇部落格:人工智能新手入門學習路線和學習資源合集(含AI綜述/python/機器學習/深度學習/tensorflow)、人工智能領域常用的開源架構和庫(含機器學習/深度學習/強化學習/知識圖譜/圖神經網絡)
如果你是計算機專業的應屆畢業生,歡迎浏覽我的另外一篇部落格:如果你是一個計算機領域的應屆生,你如何準備求職面試?
如果你是計算機專業的大學生,歡迎浏覽我的另外一篇部落格:如果你是一個計算機領域的大學生,你可以選擇學習什麼?
如果你是計算機專業的研究所學生,歡迎浏覽我的另外一篇部落格:如果你是一個計算機領域的研究所學生,你可以選擇學習什麼?
如果你對金融科技感興趣,歡迎浏覽我的另一篇部落格:如果你想了解金融科技,不妨先了解金融科技有哪些可能?
之後部落客将持續分享各大算法的學習思路和學習筆記:hello world: 我的部落格寫作思路