天天看點

知識圖譜相關介紹知識圖譜概要

知識圖譜概要

概念介紹

什麼是知識,知識從哪來

現實世界的語義本體,本體的相關語義,本體的認知層次,本體間的關系,都可以叫做知識

知識從哪裡來

  • 結構化文本

    wiki,infobox,tables,database,social-net

    知識圖譜相關介紹知識圖譜概要
    知識圖譜相關介紹知識圖譜概要
  • 非結構化文本

    網際網路,新聞,社交媒體…

  • 圖像,視訊流

什麼是知識圖譜

  1. 實體-對應現實世界的語義本體
  2. 關系-對應本體間的關系,連接配接了不同類型的實體
  3. 屬性-描述一類實體的common特性,實體被屬性所标注
    知識圖譜相關介紹知識圖譜概要

為什麼需要知識圖譜

  1. 查詢了解
    • 優化搜尋排序
      知識圖譜相關介紹知識圖譜概要
      知識圖譜相關介紹知識圖譜概要
      • 對同名實體進行搜尋屬性,為什麼百度和google給出了不一樣的排序結果?
    • 特定意圖的知識展現
      知識圖譜相關介紹知識圖譜概要
      • 搜尋李娜和奧運會,出現了李娜的奧運會名次,還有側邊欄的體育人物展現邏輯
  2. 智能問答(KB-QA)
    • 知識推理
      • 謂詞邏輯和消解原理
        知識圖譜相關介紹知識圖譜概要
        知識圖譜相關介紹知識圖譜概要
        知識圖譜相關介紹知識圖譜概要
        知識圖譜相關介紹知識圖譜概要
        知識圖譜相關介紹知識圖譜概要

        一系列推理以後,發現關于李明的假設沒有推理出合理命題,最後得假設為假

        ![這裡寫圖檔描述])

  3. 金融領域
    • 反欺詐
    • 知識圖譜相關介紹知識圖譜概要
      • 智能投顧
  4. 社交領域
    • 興趣推薦
    • 使用者聚類
      • SimRank
        • 知識圖譜相關介紹知識圖譜概要
          S(U1,U2)=C|I(U1)||I(U2)|∑i=1|I(U1)|∑j=1|I(U2)|S(Ii(U1),Ij(U2))

怎麼存儲知識圖譜

  • rdf (語義網)
    <?xml version="1.0"?>     
            <RDF>  
            <Description about="http://www.yahoo.com/">  
            <資源作者>Yahoo!公司</資源作者>  
            <資源名稱>Yahoo!首頁</資源名稱>  
            </Description>  
            </RDF>  
               
  • 圖資料庫
    • neo4j
      插入  
          CREATE (n:Person { name : 'Andres'});
          删除  
          MATCH (n:Person { name:'Andres' }) 
          DETACH DELETE n; 
          查詢  
          MATCH (a:Person { name:'Andres' })-[r]->(b:Person { name:'Taylor' }) 
          RETURN type(r); 
          CREATE CONSTRAINT ON (a:Person) ASSERT a.name IS UNIQUE; 
          MATCH (a:Person),(b:Person) 
          WHERE a.name = 'Node A' AND b.name = 'Node B' 
          CREATE (a)-[r:Follow]->(b); 
          MATCH (a:Person)-[r:Follow]->(b:Person) 
          WHERE a.name = 'Andres' AND b.name = 'Taylor' 
          DELETE r; 
          MATCH (:Person { name:'Taylor' })-[r:Follow]->(Person) 
          RETURN Person.name; 
          建立索引  
          CREATE INDEX ON :Person(name); 
                 
    • titan
      • 知識圖譜相關介紹知識圖譜概要
      • 知識圖譜相關介紹知識圖譜概要
        Transform
        g = TinkerGraphFactory.createTinkerGraph()
        g.V().in().outE().toList()
        g.V().in().outE().toList()g.v(1).map
        g.E.has(‘weight’, T.gt, 0.5f).outV.age.(_).transform{it+2}
        
        Filter
        e.outV.outE(e.label).filter{ElementHelper.haveEqualProperties(e,it)}.as('e').inV.filter{it==e.inV.next()}.back('e').except([e])
        g.V[0..2].name
        g.v(1).outE.and(_().has('weight', T.gt, 0.4f), _().has('weight', T.lt, 0.8f))
        g.V.as(‘x’).outE(‘knows’).inV.has(‘age’, T.gt, 30).back(‘x’).age
        
        
        sideEffect
        g.v(1).out.aggregate(x).next()
        g.V.groupBy{it}{it.out}.cap
        
        Method
        g.addVertex(100)
        g.addVertex(null,[name:"stephen"])
                   

知識圖譜的關鍵問題

資訊抽取(Infomation Extraction)

  • 什麼是資訊抽取

    從自然語言文本中抽取指定類型的實體、關系、事件等事實資訊,并形成結構化資料輸出的文本處理技術

    自然語言處理和資訊抽取

實體連結(Entity Linking )

問題分類
  • 實體識别

    人名,地名,機構名,時間,日期,貨币,百分比

    子任務:實體邊界識别和确定實體類别

  • 開放域實體抽取
  • 實體消歧

    如何确定一個實體指稱所指向的是真實世界的實體?

    知識圖譜相關介紹知識圖譜概要
    • bow方法計算相似度

      score(q,ek)=cos(q.T,ek.T)=q.T,ek.T||q.T||||ek.T||

      ê =argmaxscore(q,ek)

    • 加入其特征的分類
      1. 類别共現特征
      2. 文本相似度
      3. 實體本身流行度 P(e)
      4. 實體到指代的先驗 P(s|e)
      5. 實體上下文的先驗 P(c|e)
    • 實體在網頁連結上的社會化關系進行聚類消歧
    • 基于實體連結的方法
      1. Pairwise
      2. Referent Graph
方法分類
  • manual-Defining Domain
    知識圖譜相關介紹知識圖譜概要
    • 高精度的語義本體
    • 高準确的提取算子
      知識圖譜相關介紹知識圖譜概要
    • 建構成本高
    • 需要業務專家
  • Sime-automatic
    • 本體類型上下位人工定義
    • 知識圖譜相關介紹知識圖譜概要
      • SSL實作data上的label
      • 知識圖譜相關介紹知識圖譜概要
      • 用已有類别很容易判斷實體類型
      • 可以從現有的語料庫中抽取出關系
      • 可以得到較為松散提取文法
        知識圖譜相關介紹知識圖譜概要
  • Automatic
    • 所有名詞短語都是實體
    • 所有動詞短語都是屬性
    • 頻率統計實作挖掘
web實體抽取系統構成
  • Fetcher

    把種子放到相關搜尋引擎,把topN的相關頁面爬取下來

  • Extractor

    針對單個頁面,使用模闆抽取候選執行個體

  • Ranker

    建構種子,網頁,模闆,候選的相關排序規則,計算候選的置信度

實體連結的評測方法
  • 以指代項準的評測

    Accuarcymicro=NumCorrectNumQueries

  • 以實體為标準的評測

    Accuarcymicro=∑iNumEntitysNumCorrect(Ei)NumQueries(Ei)NumQueries

關系挖掘(Relation Extraction)

  • 目标-自動識别由一對概念和聯系這對概念的關系構成的相關三元組
  • 知識圖譜相關介紹知識圖譜概要
  • bootstraping
  • Distant Supervision
    • Matrix Factorization
      知識圖譜相關介紹知識圖譜概要
  • PRA
  • Predicate Logic

知識表示(RL)

  • 目标-将研究對象的語義資訊表示為低維稠密實值向量,進而可以表示研究對象語義相似度,是一種分布式表示
  • RL的分布式表示的應用
    • 相似度計算
    • 知識圖譜補全(linking prediction)
    • 實體連結
  • RL的優點:
    • 不同于三元組的one-hot表示,可以提升計算效率
    • 緩解資料稀疏
    • 異質資訊融合
  • RL方法
    1. 距離模型(structured embedding, SE)

      argminr||RlhsriEv(eli)−RrhsriEv(eri)||1,whereei∈Rd,RlriRrri∈Rdxd

      s.t.f(eli,ri,rri)<f(elj,ri,eri),∀(elj,ri,eri)∉xwherex∈triple_tuple

      f(eli,ri,rri)<f(eli,ri,erj),∀(eli,ri,erj)∉xwherex∈triple_tuple

    2. 單層神經網絡(Single Layer Model, SLM)
      • A word i is then embedded in a d=∑kdk dimensional space by concatenating all lookup-table outputs:

        LTW1,...,WK(i)T=(LTW1(i1)T,...,LTWK(iK)T)

      • A classical TDNN layer performs a convolution on a given sequence x(·) , outputting another sequence o(·) whose value at time t is:
        知識圖譜相關介紹知識圖譜概要
        fr(h,t)=uTrg(Mr,llh+Mr,2lt)
    3. 語義比對能量模型(SME sematic matching energy)

      — 為每個三元組定義兩種評分函數

      fr(h,t)=(Mllh+M2lr+b1)T(M3Lt+M4lr+b2)

      fr(h,t)=(Mllh⋅M2lr+b1)T(M3Lt⋅M4Lr+b2)

    4. 雙線性模型(Latent factor model, LFM)

      fr(h,t)=lThMrlt

    5. 張量神經網絡模型
      • Represent each entity as the average of its word vectors, allowing the sharing of statistical strength between the words describing each entity,word vectors which are trained on large unlabeled text.
      • Train on relationships in WordNet and Freebase and evaluate on a heldout set of unseen relational triplets
      • Define a set of parameters indexed by R for each relation’s scoring function.
        知識圖譜相關介紹知識圖譜概要
      s.t.g(e1,R,e2)−uTRf(eT1W[1:k]Re2+VR[e1e2]+bR)wheref=tanh,W[1:k]R∈Rk,eT1W[1:k]Re2∈h∈RkVR∈Rkx2d,U∈Rk,bR∈Rk
      知識圖譜相關介紹知識圖譜概要
    6. 翻譯模型
      • transE
      • 知識庫的關系看做實體之間的某種平移向量

        fr(h,t)=|lh+lr−lt|L1/L2

      • 損失函數

        ∑(h,r,t)∈s∑(h′,r′,t′)∈s−max(0,fr(h,t)+γ−fr′(h′,t′))whereS−=(h′,l,t)∪(h,l′,t)∪(h,l,t′)

      • 缺點

        無法處理複雜關系(1-N,N-1)

        知識圖譜相關介紹知識圖譜概要
      • transH
      • 同時使用平移向量 l 和超平面法向量wr表示
      • 知識圖譜相關介紹知識圖譜概要
      fr(h,t)=||lhr+lr−ltr||L1/L2s.t.lhr=lh−wTrLhWr,ltr=lt−wTrltWr
      • transR
      • 假設關系和實體處于不同的語義空間中
      • 知識圖譜相關介紹知識圖譜概要
      fr(h,t)=||lhr+lr−ltr||L1/L2s.t.lhr=lhMr,ltr=ltMr
      • TransD
      • 頭尾空間不共享投影矩陣,關系的頭尾實體的類型和屬性可能差異巨大
      • 投影矩陣與實體和關系均相關
        知識圖譜相關介紹知識圖譜概要

    Mrh=lrplThp+Idxk

    Mrt=lrplTtp+Idxk

    • 損失函數

      fr(h,t)=||lhMrh+lr−ltMrt||L1/L2

      • TransG
      • GMM描述模型頭尾實體關系,一個關系對應多種語義,每種語義用一個高斯分布刻畫

        lt−lh|lr≈∑m=1Mπr,mN(μr,m,I)

        知識圖譜相關介紹知識圖譜概要
      • KG2E
    • 使用高斯分布表示實體和關系,高斯分布均值表示他們在語義kongjian中心位置,高斯分布協方差表示實體或者關系的不确定性。
      知識圖譜相關介紹知識圖譜概要
    • 使用機率分布表示頭尾關系

      pe≈N(μh−μt,∑h+∑t)

    • 假設關系本身也滿足一個分布

      pr≈N(μr,∑r)

    • 使用相對熵定義距離度量

      fr(h,t)=∫x∈RkeN(x;μr,∑r)N(s;μe,∑e)dx

相關研究和應用

知識庫

FreeBase

google(5.7億實體,180億關系)

Satori(MicrosoBing)

應用系統

TextRunner

http://dl.acm.org/citation.cfm?id=1614177

OpenIE

http://openie.allenai.org/#

NELL

http://openie.allenai.org/#

知識計算平台

WolframAlpha

10萬億個實體,各種type的知識和邏輯表示

Graph Search(Facebook)

知立方(搜狗)

繼續閱讀