知識圖譜概要

概念介紹

什麼是知識，知識從哪來

現實世界的語義本體，本體的相關語義，本體的認知層次，本體間的關系，都可以叫做知識

知識從哪裡來

結構化文本

wiki，infobox，tables，database，social-net

知識圖譜相關介紹知識圖譜概要

知識圖譜相關介紹知識圖譜概要
非結構化文本

網際網路，新聞，社交媒體…
圖像，視訊流

什麼是知識圖譜

實體-對應現實世界的語義本體
關系-對應本體間的關系，連接配接了不同類型的實體
屬性-描述一類實體的common特性，實體被屬性所标注

知識圖譜相關介紹知識圖譜概要

為什麼需要知識圖譜

查詢了解
- 優化搜尋排序
  
  知識圖譜相關介紹知識圖譜概要
  
  知識圖譜相關介紹知識圖譜概要
  - 對同名實體進行搜尋屬性，為什麼百度和google給出了不一樣的排序結果？
- 特定意圖的知識展現
  
  知識圖譜相關介紹知識圖譜概要
  - 搜尋李娜和奧運會，出現了李娜的奧運會名次，還有側邊欄的體育人物展現邏輯
智能問答（KB-QA)
- 知識推理
  - 謂詞邏輯和消解原理
    
    知識圖譜相關介紹知識圖譜概要
    
    知識圖譜相關介紹知識圖譜概要
    
    知識圖譜相關介紹知識圖譜概要
    
    知識圖譜相關介紹知識圖譜概要
    
    知識圖譜相關介紹知識圖譜概要
    
    一系列推理以後，發現關于李明的假設沒有推理出合理命題，最後得假設為假
    
    ![這裡寫圖檔描述])
金融領域
- 反欺詐
- 知識圖譜相關介紹知識圖譜概要
  - 智能投顧
社交領域
- 興趣推薦
- 使用者聚類
  - SimRank
    - 知識圖譜相關介紹知識圖譜概要
      S(U1,U2)=C|I(U1)||I(U2)|∑i=1|I(U1)|∑j=1|I(U2)|S(Ii(U1),Ij(U2))

怎麼存儲知識圖譜

rdf （語義網）

<?xml version="1.0"?>     
        <RDF>  
        <Description about="http://www.yahoo.com/">  
        <資源作者>Yahoo！公司</資源作者>  
        <資源名稱>Yahoo！首頁</資源名稱>  
        </Description>  
        </RDF>

圖資料庫

neo4j

插入  
    CREATE (n:Person { name : 'Andres'});
    删除  
    MATCH (n:Person { name:'Andres' }) 
    DETACH DELETE n; 
    查詢  
    MATCH (a:Person { name:'Andres' })-[r]->(b:Person { name:'Taylor' }) 
    RETURN type(r); 
    CREATE CONSTRAINT ON (a:Person) ASSERT a.name IS UNIQUE; 
    MATCH (a:Person),(b:Person) 
    WHERE a.name = 'Node A' AND b.name = 'Node B' 
    CREATE (a)-[r:Follow]->(b); 
    MATCH (a:Person)-[r:Follow]->(b:Person) 
    WHERE a.name = 'Andres' AND b.name = 'Taylor' 
    DELETE r; 
    MATCH (:Person { name:'Taylor' })-[r:Follow]->(Person) 
    RETURN Person.name; 
    建立索引  
    CREATE INDEX ON :Person(name);

titan

知識圖譜相關介紹知識圖譜概要

知識圖譜相關介紹知識圖譜概要

Transform
g = TinkerGraphFactory.createTinkerGraph()
g.V().in().outE().toList()
g.V().in().outE().toList()g.v(1).map
g.E.has(‘weight’, T.gt, 0.5f).outV.age.(_).transform{it+2}

Filter
e.outV.outE(e.label).filter{ElementHelper.haveEqualProperties(e,it)}.as('e').inV.filter{it==e.inV.next()}.back('e').except([e])
g.V[0..2].name
g.v(1).outE.and(_().has('weight', T.gt, 0.4f), _().has('weight', T.lt, 0.8f))
g.V.as(‘x’).outE(‘knows’).inV.has(‘age’, T.gt, 30).back(‘x’).age


sideEffect
g.v(1).out.aggregate(x).next()
g.V.groupBy{it}{it.out}.cap

Method
g.addVertex(100)
g.addVertex(null,[name:"stephen"])

知識圖譜的關鍵問題

資訊抽取(Infomation Extraction)

什麼是資訊抽取

從自然語言文本中抽取指定類型的實體、關系、事件等事實資訊，并形成結構化資料輸出的文本處理技術

自然語言處理和資訊抽取

實體連結(Entity Linking )

問題分類

實體識别

人名，地名，機構名，時間，日期，貨币，百分比

子任務:實體邊界識别和确定實體類别
開放域實體抽取
實體消歧

如何确定一個實體指稱所指向的是真實世界的實體？

知識圖譜相關介紹知識圖譜概要
- bow方法計算相似度
  
  score(q,ek)=cos(q.T,ek.T)=q.T,ek.T||q.T||||ek.T||
  
  ê =argmaxscore(q,ek)
- 加入其特征的分類
  1. 類别共現特征
  2. 文本相似度
  3. 實體本身流行度 P(e)
  4. 實體到指代的先驗 P(s|e)
  5. 實體上下文的先驗 P(c|e)
- 實體在網頁連結上的社會化關系進行聚類消歧
- 基于實體連結的方法
  1. Pairwise
  2. Referent Graph

方法分類

manual-Defining Domain

知識圖譜相關介紹知識圖譜概要
- 高精度的語義本體
- 高準确的提取算子
  
  知識圖譜相關介紹知識圖譜概要
- 建構成本高
- 需要業務專家
Sime-automatic
- 本體類型上下位人工定義
- 知識圖譜相關介紹知識圖譜概要
  - SSL實作data上的label
  - 知識圖譜相關介紹知識圖譜概要
  - 用已有類别很容易判斷實體類型
  - 可以從現有的語料庫中抽取出關系
  - 可以得到較為松散提取文法
    
    知識圖譜相關介紹知識圖譜概要
Automatic
- 所有名詞短語都是實體
- 所有動詞短語都是屬性
- 頻率統計實作挖掘

web實體抽取系統構成

Fetcher

把種子放到相關搜尋引擎，把topN的相關頁面爬取下來
Extractor

針對單個頁面，使用模闆抽取候選執行個體
Ranker

建構種子，網頁，模闆，候選的相關排序規則，計算候選的置信度

實體連結的評測方法

以指代項準的評測

Accuarcymicro=NumCorrectNumQueries
以實體為标準的評測

Accuarcymicro=∑iNumEntitysNumCorrect(Ei)NumQueries(Ei)NumQueries

關系挖掘(Relation Extraction)

目标-自動識别由一對概念和聯系這對概念的關系構成的相關三元組
知識圖譜相關介紹知識圖譜概要
bootstraping
Distant Supervision
- Matrix Factorization
  
  知識圖譜相關介紹知識圖譜概要
PRA
Predicate Logic

知識表示（RL)

目标-将研究對象的語義資訊表示為低維稠密實值向量,進而可以表示研究對象語義相似度，是一種分布式表示
RL的分布式表示的應用
- 相似度計算
- 知識圖譜補全（linking prediction）
- 實體連結
RL的優點：
- 不同于三元組的one-hot表示，可以提升計算效率
- 緩解資料稀疏
- 異質資訊融合
RL方法
1. 距離模型(structured embedding, SE)
  
  argminr||RlhsriEv(eli)−RrhsriEv(eri)||1,whereei∈Rd,RlriRrri∈Rdxd
  
  s.t.f(eli,ri,rri)<f(elj,ri,eri),∀(elj,ri,eri)∉xwherex∈triple_tuple
  
  f(eli,ri,rri)<f(eli,ri,erj),∀(eli,ri,erj)∉xwherex∈triple_tuple
2. 單層神經網絡(Single Layer Model, SLM)
  - A word i is then embedded in a d=∑kdk dimensional space by concatenating all lookup-table outputs:
    
    LTW1,...,WK(i)T=(LTW1(i1)T,...,LTWK(iK)T)
  - A classical TDNN layer performs a convolution on a given sequence x(·) , outputting another sequence o(·) whose value at time t is:
    
    知識圖譜相關介紹知識圖譜概要
    fr(h,t）=uTrg(Mr,llh+Mr,2lt)
3. 語義比對能量模型（SME sematic matching energy)
  
  — 為每個三元組定義兩種評分函數
  
  fr(h,t)=(Mllh+M2lr+b1)T(M3Lt+M4lr+b2)
  
  fr(h,t）=（Mllh⋅M2lr+b1)T(M3Lt⋅M4Lr+b2)
4. 雙線性模型(Latent factor model， LFM)
  
  fr(h,t)=lThMrlt
5. 張量神經網絡模型
  - Represent each entity as the average of its word vectors, allowing the sharing of statistical strength between the words describing each entity，word vectors which are trained on large unlabeled text.
  - Train on relationships in WordNet and Freebase and evaluate on a heldout set of unseen relational triplets
  - Define a set of parameters indexed by R for each relation’s scoring function.
    
    知識圖譜相關介紹知識圖譜概要
  s.t.g(e1,R,e2)−uTRf(eT1W[1:k]Re2+VR[e1e2]+bR)wheref=tanh,W[1:k]R∈Rk,eT1W[1:k]Re2∈h∈RkVR∈Rkx2d,U∈Rk,bR∈Rk
  
  知識圖譜相關介紹知識圖譜概要
6. 翻譯模型
  - transE
  - 知識庫的關系看做實體之間的某種平移向量
    
    fr(h,t)=|lh+lr−lt|L1/L2
  - 損失函數
    
    ∑(h,r,t)∈s∑(h′,r′,t′)∈s−max(0,fr(h,t)+γ−fr′(h′,t′))whereS−=(h′,l,t)∪(h,l′,t)∪(h,l,t′)
  - 缺點
    
    無法處理複雜關系（1-N，N-1)
    
    知識圖譜相關介紹知識圖譜概要
  - transH
  - 同時使用平移向量 l 和超平面法向量wr表示
  - 知識圖譜相關介紹知識圖譜概要
  fr(h,t）=||lhr+lr−ltr||L1/L2s.t.lhr=lh−wTrLhWr,ltr=lt−wTrltWr
  - transR
  - 假設關系和實體處于不同的語義空間中
  - 知識圖譜相關介紹知識圖譜概要
  fr(h,t）=||lhr+lr−ltr||L1/L2s.t.lhr=lhMr,ltr=ltMr
  - TransD
  - 頭尾空間不共享投影矩陣，關系的頭尾實體的類型和屬性可能差異巨大
  - 投影矩陣與實體和關系均相關
    
    知識圖譜相關介紹知識圖譜概要
Mrh=lrplThp+Idxk

Mrt=lrplTtp+Idxk
- 損失函數
  
  fr(h,t)=||lhMrh+lr−ltMrt||L1/L2
  - TransG
  - GMM描述模型頭尾實體關系，一個關系對應多種語義，每種語義用一個高斯分布刻畫
    
    lt−lh|lr≈∑m=1Mπr,mN(μr,m,I)
    
    知識圖譜相關介紹知識圖譜概要
  - KG2E
- 使用高斯分布表示實體和關系，高斯分布均值表示他們在語義kongjian中心位置，高斯分布協方差表示實體或者關系的不确定性。
  
  知識圖譜相關介紹知識圖譜概要
- 使用機率分布表示頭尾關系
  
  pe≈N(μh−μt,∑h+∑t)
- 假設關系本身也滿足一個分布
  
  pr≈N(μr,∑r)
- 使用相對熵定義距離度量
  
  fr(h,t)=∫x∈RkeN(x;μr,∑r)N(s;μe,∑e)dx

知識圖譜相關介紹知識圖譜概要

知識圖譜概要

概念介紹

什麼是知識，知識從哪來

現實世界的語義本體，本體的相關語義，本體的認知層次，本體間的關系，都可以叫做知識

知識從哪裡來

什麼是知識圖譜

為什麼需要知識圖譜

怎麼存儲知識圖譜

知識圖譜的關鍵問題

資訊抽取(Infomation Extraction)

實體連結(Entity Linking )

問題分類

方法分類

web實體抽取系統構成

實體連結的評測方法

關系挖掘(Relation Extraction)

知識表示（RL)

相關研究和應用

知識庫

應用系統

TextRunner

OpenIE

NELL

知識計算平台

WolframAlpha

繼續閱讀