知識圖譜概要
概念介紹
什麼是知識,知識從哪來
現實世界的語義本體,本體的相關語義,本體的認知層次,本體間的關系,都可以叫做知識
知識從哪裡來
-
結構化文本
wiki,infobox,tables,database,social-net
知識圖譜相關介紹知識圖譜概要 知識圖譜相關介紹知識圖譜概要 -
非結構化文本
網際網路,新聞,社交媒體…
- 圖像,視訊流
什麼是知識圖譜
- 實體-對應現實世界的語義本體
- 關系-對應本體間的關系,連接配接了不同類型的實體
- 屬性-描述一類實體的common特性,實體被屬性所标注
知識圖譜相關介紹知識圖譜概要
為什麼需要知識圖譜
- 查詢了解
- 優化搜尋排序
知識圖譜相關介紹知識圖譜概要 知識圖譜相關介紹知識圖譜概要 - 對同名實體進行搜尋屬性,為什麼百度和google給出了不一樣的排序結果?
- 特定意圖的知識展現
知識圖譜相關介紹知識圖譜概要 - 搜尋李娜和奧運會,出現了李娜的奧運會名次,還有側邊欄的體育人物展現邏輯
- 優化搜尋排序
- 智能問答(KB-QA)
- 知識推理
- 謂詞邏輯和消解原理
知識圖譜相關介紹知識圖譜概要 知識圖譜相關介紹知識圖譜概要 知識圖譜相關介紹知識圖譜概要 知識圖譜相關介紹知識圖譜概要 知識圖譜相關介紹知識圖譜概要 一系列推理以後,發現關于李明的假設沒有推理出合理命題,最後得假設為假
![這裡寫圖檔描述])
- 謂詞邏輯和消解原理
- 知識推理
- 金融領域
- 反欺詐
-
知識圖譜相關介紹知識圖譜概要 - 智能投顧
- 社交領域
- 興趣推薦
- 使用者聚類
- SimRank
- S(U1,U2)=C|I(U1)||I(U2)|∑i=1|I(U1)|∑j=1|I(U2)|S(Ii(U1),Ij(U2))
知識圖譜相關介紹知識圖譜概要
-
- SimRank
怎麼存儲知識圖譜
- rdf (語義網)
<?xml version="1.0"?> <RDF> <Description about="http://www.yahoo.com/"> <資源作者>Yahoo!公司</資源作者> <資源名稱>Yahoo!首頁</資源名稱> </Description> </RDF>
- 圖資料庫
- neo4j
插入 CREATE (n:Person { name : 'Andres'}); 删除 MATCH (n:Person { name:'Andres' }) DETACH DELETE n; 查詢 MATCH (a:Person { name:'Andres' })-[r]->(b:Person { name:'Taylor' }) RETURN type(r); CREATE CONSTRAINT ON (a:Person) ASSERT a.name IS UNIQUE; MATCH (a:Person),(b:Person) WHERE a.name = 'Node A' AND b.name = 'Node B' CREATE (a)-[r:Follow]->(b); MATCH (a:Person)-[r:Follow]->(b:Person) WHERE a.name = 'Andres' AND b.name = 'Taylor' DELETE r; MATCH (:Person { name:'Taylor' })-[r:Follow]->(Person) RETURN Person.name; 建立索引 CREATE INDEX ON :Person(name);
- titan
-
知識圖譜相關介紹知識圖譜概要 -
知識圖譜相關介紹知識圖譜概要 Transform g = TinkerGraphFactory.createTinkerGraph() g.V().in().outE().toList() g.V().in().outE().toList()g.v(1).map g.E.has(‘weight’, T.gt, 0.5f).outV.age.(_).transform{it+2} Filter e.outV.outE(e.label).filter{ElementHelper.haveEqualProperties(e,it)}.as('e').inV.filter{it==e.inV.next()}.back('e').except([e]) g.V[0..2].name g.v(1).outE.and(_().has('weight', T.gt, 0.4f), _().has('weight', T.lt, 0.8f)) g.V.as(‘x’).outE(‘knows’).inV.has(‘age’, T.gt, 30).back(‘x’).age sideEffect g.v(1).out.aggregate(x).next() g.V.groupBy{it}{it.out}.cap Method g.addVertex(100) g.addVertex(null,[name:"stephen"])
-
- neo4j
知識圖譜的關鍵問題
資訊抽取(Infomation Extraction)
-
什麼是資訊抽取
從自然語言文本中抽取指定類型的實體、關系、事件等事實資訊,并形成結構化資料輸出的文本處理技術
自然語言處理和資訊抽取
實體連結(Entity Linking )
問題分類
-
實體識别
人名,地名,機構名,時間,日期,貨币,百分比
子任務:實體邊界識别和确定實體類别
- 開放域實體抽取
-
實體消歧
如何确定一個實體指稱所指向的是真實世界的實體?
知識圖譜相關介紹知識圖譜概要 -
bow方法計算相似度
score(q,ek)=cos(q.T,ek.T)=q.T,ek.T||q.T||||ek.T||
ê =argmaxscore(q,ek)
- 加入其特征的分類
- 類别共現特征
- 文本相似度
- 實體本身流行度 P(e)
- 實體到指代的先驗 P(s|e)
- 實體上下文的先驗 P(c|e)
- 實體在網頁連結上的社會化關系進行聚類消歧
- 基于實體連結的方法
- Pairwise
- Referent Graph
-
方法分類
- manual-Defining Domain
知識圖譜相關介紹知識圖譜概要 - 高精度的語義本體
- 高準确的提取算子
知識圖譜相關介紹知識圖譜概要 - 建構成本高
- 需要業務專家
- Sime-automatic
- 本體類型上下位人工定義
-
知識圖譜相關介紹知識圖譜概要 - SSL實作data上的label
-
知識圖譜相關介紹知識圖譜概要 - 用已有類别很容易判斷實體類型
- 可以從現有的語料庫中抽取出關系
- 可以得到較為松散提取文法
知識圖譜相關介紹知識圖譜概要
- Automatic
- 所有名詞短語都是實體
- 所有動詞短語都是屬性
- 頻率統計實作挖掘
web實體抽取系統構成
-
Fetcher
把種子放到相關搜尋引擎,把topN的相關頁面爬取下來
-
Extractor
針對單個頁面,使用模闆抽取候選執行個體
-
Ranker
建構種子,網頁,模闆,候選的相關排序規則,計算候選的置信度
實體連結的評測方法
-
以指代項準的評測
Accuarcymicro=NumCorrectNumQueries
-
以實體為标準的評測
Accuarcymicro=∑iNumEntitysNumCorrect(Ei)NumQueries(Ei)NumQueries
關系挖掘(Relation Extraction)
- 目标-自動識别由一對概念和聯系這對概念的關系構成的相關三元組
-
知識圖譜相關介紹知識圖譜概要 - bootstraping
- Distant Supervision
- Matrix Factorization
知識圖譜相關介紹知識圖譜概要
- Matrix Factorization
- PRA
- Predicate Logic
知識表示(RL)
- 目标-将研究對象的語義資訊表示為低維稠密實值向量,進而可以表示研究對象語義相似度,是一種分布式表示
- RL的分布式表示的應用
- 相似度計算
- 知識圖譜補全(linking prediction)
- 實體連結
- RL的優點:
- 不同于三元組的one-hot表示,可以提升計算效率
- 緩解資料稀疏
- 異質資訊融合
- RL方法
-
距離模型(structured embedding, SE)
argminr||RlhsriEv(eli)−RrhsriEv(eri)||1,whereei∈Rd,RlriRrri∈Rdxd
s.t.f(eli,ri,rri)<f(elj,ri,eri),∀(elj,ri,eri)∉xwherex∈triple_tuple
f(eli,ri,rri)<f(eli,ri,erj),∀(eli,ri,erj)∉xwherex∈triple_tuple
- 單層神經網絡(Single Layer Model, SLM)
-
A word i is then embedded in a d=∑kdk dimensional space by concatenating all lookup-table outputs:
LTW1,...,WK(i)T=(LTW1(i1)T,...,LTWK(iK)T)
- A classical TDNN layer performs a convolution on a given sequence x(·) , outputting another sequence o(·) whose value at time t is: fr(h,t)=uTrg(Mr,llh+Mr,2lt)
知識圖譜相關介紹知識圖譜概要
-
-
語義比對能量模型(SME sematic matching energy)
— 為每個三元組定義兩種評分函數
fr(h,t)=(Mllh+M2lr+b1)T(M3Lt+M4lr+b2)
fr(h,t)=(Mllh⋅M2lr+b1)T(M3Lt⋅M4Lr+b2)
-
雙線性模型(Latent factor model, LFM)
fr(h,t)=lThMrlt
- 張量神經網絡模型
- Represent each entity as the average of its word vectors, allowing the sharing of statistical strength between the words describing each entity,word vectors which are trained on large unlabeled text.
- Train on relationships in WordNet and Freebase and evaluate on a heldout set of unseen relational triplets
- Define a set of parameters indexed by R for each relation’s scoring function.
知識圖譜相關介紹知識圖譜概要
知識圖譜相關介紹知識圖譜概要 - 翻譯模型
- transE
-
知識庫的關系看做實體之間的某種平移向量
fr(h,t)=|lh+lr−lt|L1/L2
-
損失函數
∑(h,r,t)∈s∑(h′,r′,t′)∈s−max(0,fr(h,t)+γ−fr′(h′,t′))whereS−=(h′,l,t)∪(h,l′,t)∪(h,l,t′)
-
缺點
無法處理複雜關系(1-N,N-1)
知識圖譜相關介紹知識圖譜概要 - transH
- 同時使用平移向量 l 和超平面法向量wr表示
-
知識圖譜相關介紹知識圖譜概要
- transR
- 假設關系和實體處于不同的語義空間中
-
知識圖譜相關介紹知識圖譜概要
- TransD
- 頭尾空間不共享投影矩陣,關系的頭尾實體的類型和屬性可能差異巨大
- 投影矩陣與實體和關系均相關
知識圖譜相關介紹知識圖譜概要
Mrh=lrplThp+Idxk
Mrt=lrplTtp+Idxk
-
損失函數
fr(h,t)=||lhMrh+lr−ltMrt||L1/L2
- TransG
-
GMM描述模型頭尾實體關系,一個關系對應多種語義,每種語義用一個高斯分布刻畫
lt−lh|lr≈∑m=1Mπr,mN(μr,m,I)
知識圖譜相關介紹知識圖譜概要 - KG2E
- 使用高斯分布表示實體和關系,高斯分布均值表示他們在語義kongjian中心位置,高斯分布協方差表示實體或者關系的不确定性。
知識圖譜相關介紹知識圖譜概要 -
使用機率分布表示頭尾關系
pe≈N(μh−μt,∑h+∑t)
-
假設關系本身也滿足一個分布
pr≈N(μr,∑r)
-
使用相對熵定義距離度量
fr(h,t)=∫x∈RkeN(x;μr,∑r)N(s;μe,∑e)dx
-
相關研究和應用
知識庫
FreeBase
google(5.7億實體,180億關系)
Satori(MicrosoBing)
應用系統
TextRunner
http://dl.acm.org/citation.cfm?id=1614177
OpenIE
http://openie.allenai.org/#
NELL
http://openie.allenai.org/#
知識計算平台
WolframAlpha
10萬億個實體,各種type的知識和邏輯表示
Graph Search(Facebook)
知立方(搜狗)