天天看點

知識圖譜的建構流程

簡單介紹關于知識圖譜的建構的流程: 1. 資料來源:(資料層(Data Level)的建構) 百科類資料(Wikipedia半結構化, Freebase結構化),  結構化資料(DBpedia 和YAGO 等通用語義資料集,還包括如MusicBrainz 和DrugBank 等特定領域的知識庫), 半結構化資料,自動化的AVP(屬性-值對)抽取 以及搜尋日志挖掘,發現最新出現的各種實體,基于Bootstrapping的多類别協同模式學習       Bootstrapping方法的過程:

  • Given a hand of seed NEs of a category C: 
  • Learning context features of the seeds from queries 
  • Extracting new seed entities of category C using the learnt context  features 
  • Expanding context features using the expanded seed set

#屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的内在特性;而關系(relation)用來連接配接兩個實體,刻畫它們之間的關聯

2. 從抽取圖譜(Extraction Graphs)到知識圖譜: (1)實體對齊(Object Alignment),針對多種來源資料用聚類算法,關鍵在于定義合适的相似度度量 (2)知識圖譜schema建構,相當于為其建立本體(Ontology),最基本的本體包括概念、概念層次、屬性、屬性值類型、關系、關系定義域(Domain)概念集以及關系值域(Range)概念集。 自頂向下的方式是指通過本體編輯器(Ontology Editor)預先建構本體,本體建構不是從無到有的過程,而是依賴于從百科類和結構化資料得到的高品質知識中所提取的模式資訊。 自底向上的方式則通過上面介紹的各種抽取技術,特别是通過搜尋日志和Web Table抽取發現的類别、屬性和關系,并将這些置信度高的模式合并到知識圖譜中。合并過程将使用類似實體對齊的對齊算法。 (3)不一緻性的解決。 優先采用那些可靠性高的資料源(如百科類或結構化資料)抽取得到的事實。

3. 知識圖譜的挖掘: (1)推理,針對屬性;針對關系 (2)實體重要性排序, 當查詢涉及多個實體時,搜尋引擎将選擇與查詢更相關且更重要的實體來展示。實體的相關性度量需在查詢時線上計算,而實體重要性與查詢無關可離線計算,搜尋引擎公司将PageRank算法 應用在知識圖譜上來計算實體的重要性 (3)相關實體挖掘。使用主題模型(如LDA)發現虛拟文檔集中的主題分布。其中每個主題包含1個或多個實體,這些在同一個主題中的實體互為相關實體。當使用者輸入查詢時,搜尋引擎分析查詢的主題分布并選出最相關的主題。

4. 知識圖譜的更新和維護。 (1)Type和Collection的關系 搜尋引擎公司還通過自動化算法從各種資料源抽取新的類型資訊,如果Collection中的某一種類型能夠長期的保留,發展到一定程度後,由專業的人員進行決策和命名并最終成為一種新的Type。 (2)結構化站點包裝器的維護 搜尋引擎會定期檢查站點是否存在更新,使用最新的站點包裝器進行AVP抽取 (3) 知識圖譜的更新頻率 Type對應的執行個體往往是動态變化的 (4) 衆包(Crowdsourcing)回報機制 使用者可以對搜尋結果中展現的知識卡片所列出的實體相關的事實進行糾錯。當很多使用者都指出某個錯誤時,搜尋引擎将采納并修正

5.知識圖譜在搜尋中的應用 (1)查詢了解 搜尋引擎并非展現實體的全部屬性,而是根據目前輸入的查詢自動選擇最相關的屬性及屬性值來顯示。當要展現的實體被選中之後,利用相關實體挖掘來推薦其他使用者可能感興趣的實體供進一步浏覽 (2)問題回答 知識圖譜對于搜尋所帶來的另一個革新是:直接傳回答案,而不僅僅是排序的文檔清單。 搜尋引擎不僅要了解查詢中涉及到的實體及其屬性,更需要了解查詢所對應的語義資訊。搜尋引擎通過高效的圖搜尋,在知識圖譜中查找連接配接這些實體及屬性的子圖并轉換為相應的圖查詢(如SPARQL ) SPARQL:是一種用于RDF上的查詢語言 http://www.w3.org/TR/rdf-sparql-query/

繼續閱讀