天天看點

《中國人工智能學會通訊》——6.11 連結資料技術

資料連結的建立涉及多個方面,包括資料資源辨別、資源描述模型、詞彙與本體定義、連結資料格式、自動連結抽取、連結預測等。

資源辨別

資源辨別是建構資料連結的第一步。LOD 要求每個實體資源都要用類似于網頁 URL 一樣的 HTTPURI(Unified Resource Identifier) 來進行辨別。但與維護傳統網頁之間的連結不同,一個網站的資料集中通常有數量巨大的實體資源。要維護不同資料集之間的 URI 連結,将帶來巨大的工作量。

Schema.org 鼓勵采用一種稱為基于描述的引用(Reference by Description)的方式實作資源的辨別和互相引用[18] 。Guha 認為人們之間交流資訊時,通常基于實體的描述而非 ID 來區分實體。例如,當你介紹一個人時,常用“這位是著名作家張三”和“那位是某公司 CEO 張三”等來進行區分,而不是通過一個 ID 來介紹。是以,Schema.org 隻要求少量的資源擁有 URIs,并鼓勵資料釋出者為資源增加盡可能多的額外描述。這些描述可以進一步被各種自動實體消解和實體對齊技術所使用,來實作更加自動的資源引用和資料連結[21] 。

資源描述架構

建立資料連結需要有統一的資料描述模型。語義網設計了自己的基本資料模型,稱為 RDF(Resource Description Framework)。RDF 本質上是有向标記圖(Directed Labeled Graph)。關于資源的任何一項描述都簡化為一個包含主謂賓(Subject, Predicate, Object)的三元組陳述。每個 Predicate 為資源增加一條屬性描述或連結至其他資源[22] 。

在很多具體的實踐中,RDF 的設計并非全部可取,但其強調以圖模型為基礎,以資料連結為中心,屬性不必從屬于特定類,允許多方動态新增描述等,都是針對網際網路開放性的合理設計。

詞彙與本體定義

描述資料需要詞彙和術語。語義網借鑒了傳統知識表示,如架構系統、描述邏輯等方法,制定了OWL 等本體描述語言[23] 。OWL 在生物醫學等對知識表示能力要求高的特定領域有較多的應用,但在建構開放域知識庫方面,其衆多的表達構件在一個開放的網際網路環境下面,難以迅速擴充。

Schema.org 是公共詞彙标準化方面較為成功的實踐。Schema.org遵循“增量複雜”(IncrementalComplexity)和自底向上的控制原則。通常從一個最簡單的詞彙集開始,在各網站得到應用後,再根據需求逐漸擴增表達能力。

連結資料格式

在 鍊 接 數 據 的 發 布 格 式 方 面, 常 用 的 包括 RDFa(RDF in Attributes) [13] 、JSON-LD(JavaScript Object Notation for Linked Data) [14]和 HTML Microdata [15] 。 RDFa 用于在 XHTML 文檔嵌入語義标簽,這些語義标簽可以被抽取成 RDF三元組描述,用于後續處理。JSON-LD 則适合于在基于 Javascript 插件的網頁中嵌入語義和連結資料。Microdata 微資料作為 HTML5 的一部分,也可用來在網頁中增加語義标注,其設計比 RDFa 更為簡化。谷歌知識圖譜同時支援這三種連結資料釋出格式。

自動連結抽取

平行于語義網的發展,怎樣從海量 Web 文本中自動提取結構化資料一直是自然語言處理領域關注的重點,較為有代表性的工作如 NELL [24] 、DeepDive [25] 、OpenIE [26] 。文本也是擴充和補全目前很多知識圖譜的主要來源之一[27-29] 。從主要技術思路上區分,可分為基于先驗本體和基于文法結構兩種主要的不同方法。第一種方法需要預先設定抽取的關系和實體類型,再疊加遠監督(Distant Supervision) [30] 或弱監督的方法,采用已有的資料連結關系作為标記資料,典型的如 Deepdive [24] 、YAGO [31] 以及各種參加 TAC-KBP 的屬性框填充競賽的系統[32]等。另外一種方法通常被稱為開放資訊抽取(Open InformationExtraction)。這種方法主要基于句子和文法結構 的 分 析, 把 句 子 化 簡 為 三 元組,比較典型的工作如 Ollie [33]和 Standford 結 合 自 然 邏 輯 的OpenIE [26] 等。

連結預測

連結預測是指基于已有的連結關系來預測發現新的連結關系。這也是目前知識圖譜技術研究的一個熱點。根據所使用技術方法的不同,可以分為圖特征模型、表示學習和統計關系學習三類。

基于圖特征模型的連結預測通過圖結構的相似性來預測節點間可能存在的關系。從測量結構相似度時所使用的名額出發,傳統的連結預測又可以被分為局部方法、準局部方法和全局方法[34] 。局部方法經常會使用鄰居節點的相似性[35] ,全局方法通常會考慮實體間所有的路徑來作為名額[36] ,而準局部方法事實上是在上述兩者之間作了一個折衷,兼顧預測的準确性和計算的複雜度。由于知識圖譜需要處理的是有類型的語義連結(typed links),知識圖譜的連結預測比傳統更加複雜。目前在針對知識圖譜的連結預測中比較流行的圖特征模型包括歸納邏輯程式設計(如 AMIE [37] )、路徑排序算法 PRA(随機遊走算法的擴充) [38] 和子圖特征抽取算法SFE [39] 等。

表示學習源于機器學習領域,它是對資料的一種特定表達,成功地應用在自然語言處理、語音識别等多個方面[40] 。目前,表示學習方法被廣泛地應用于知識圖譜的連結預測中。表示學習旨将連結資料中的實體和關系通過學習過程表示為實值向量。其過程通常包含實值向量的初始化、學習目标的定義、模型參數和實值向量的學習等步驟。主要的方法包括雙線性模型、多層感覺機模型、張量神經網絡模型和距離模型等,如表 1 所示,其中 e i ,e j ,r k 分别代表兩個實體和一個關系的實體向量表示。

表 1 基于表示學習的連結預測方法

《中國人工智能學會通訊》——6.11 連結資料技術

事實上,圖特征模型通常和表示學習方法一起使用,起到互相補充的作用,前者可以更好地表達局部的圖模式,而後者能學習到全局的模式,典型工作如 PTransE [51] 和各種組合模型等[52-53] 。

基于統計關系學習的連結預測旨在同時利用連結資料中的統計資訊和邏輯依賴性來預測實體間的關系。馬爾可夫随機域(MRF)是一種傳統的用于連結關系學習的機率圖模型[54] ,而機率軟邏輯(PSL)是最近被廣泛研究的可以用來預測實體關系的統計關系學習方法[55] 。前者通過将模闆應用到實體集合以生成馬爾可夫随機域的圖,最終實作實體關系的推理;後者融合統計資訊和邏輯依賴,即将連結資料中對實體的本體限制轉化為有權重的規則,并能通過一種凸優化方法有效地解決其中的機率推理,解決傳統的馬爾可夫邏輯網絡(MLN)所遇到的可擴充性問題。

繼續閱讀