天天看點

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

為了不斷提升搜尋體驗,神馬搜尋的知識圖譜與應用團隊,一直在不斷探索和完善圖譜的建構技術。其中,開放資訊抽取(Open Information Extraction),或稱通用資訊抽取,旨在從大規模無結構的自然語言文本中抽取結構化資訊。它是知識圖譜資料建構的核心技術之一,決定了知識圖譜可持續擴增的能力。

\

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

“神馬搜尋”界面

本文聚焦于開放資訊抽取中的重要子任務——關系抽取,首先對關系抽取的各種主流技術進行概述,而後結合業務中的選擇與應用,重點介紹了基于DeepDive的方法,并詳述它在神馬知識圖譜資料建構工作中的應用進展。

現有的關系抽取技術主要可分為三種 :

有監督的學習方法 :該方法将關系抽取任務當做分類問題,根據訓練資料設計有效的特征,進而學習各種分類模型,然後使用訓練好的分類器預測關系。該方法的問題在于需要大量的人工标注訓練語料,而語料标注工作通常非常耗時耗力。

半監督的學習方法 :該方法主要采用Bootstrapping進行關系抽取。對于要抽取的關系,該方法首先手工設定若幹種子執行個體,然後疊代地從資料從抽取關系對應的關系模闆和更多的執行個體。

無監督的學習方法 :該方法假設擁有相同語義關系的實體對擁有相似的上下文資訊。是以可以利用每個實體對對應上下文資訊來代表該實體對的語義關系,并對所有實體對的語義關系進行聚類。

這三種方法中,有監督學習法因為能夠抽取并有效利用特征,在獲得高準确率和高召回率方面更有優勢,是目前業界應用最廣泛的一類方法。

為了打破有監督學習中人工資料标注的局限性,Mintz等人提出了遠端監督(Distant Supervision)算法,該算法的核心思想是将文本與大規模知識圖譜進行實體對齊,利用知識圖譜已有的實體間關系對文本進行标注。遠端監督基于的基本假設是:如果從知識圖譜中可擷取三元組R(E1,E2)(注:R代表關系,E1、E2代表兩個實體),且E1和E2共現與句子S中,則S表達了E1和E2間的關系R,标注為訓練正例。

遠端監督算法是目前主流的關系抽取系統廣泛采用的方法,也是該領域的研究熱點之一。該算法很好地解決了資料标注的規模問題,但它基于的基本假設過強,會引入大量噪音資料。例如,從知識圖譜擷取三元組:創始人(喬布斯,蘋果公司),下表句1和句2正确表達了該關系,但句3和句4并沒有表達這樣的關系,是以對句3和句4應用基本假設時會得到錯誤的标注資訊。這個問題通常稱為 the wrong label problem。

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

出現 the wrong label problem 的根本原因,是遠端監督假設一個實體對隻對應一種關系,但實際上實體對間可以同時具有多種關系,如上例中還存在CEO(喬布斯,蘋果公司)的關系,實體對間也可能不存在通常定義的某種關系,而僅因為共同涉及了某個話題才在句中共現。

為了減小 the wrong label problem 的影響,學術界陸續提出了多種改進算法,主要包括:

基于規則的方法:通過對wrong label cases的統計分析,添加規則,将原本獲得正例标注的wrong label cases直接标為負例,或通過分值控制,抵消原有的正标注。

基于圖模型的方法:建構因子圖(factor graph)等能表征變量間關聯的圖模型,通過對特征的學習和對特征權重的推算減小wrong label cases對全局的影響。

基于多示例學習(multi-instance learning)的方法:将所有包含(E1,E2)的句子組成一個bag,從每個bag對句子進行篩選來生成訓練樣本。此類方法最早提出時假設如果知識圖譜中存在R(E1,E2),則語料中含(E1,E2)的所有instance中至少有一個表達了關系R。一般與無向圖模型結合,計算出每個包中置信度最高的樣例,标為正向訓練示例。該假設比遠端監督的假設合理,但可能損失很多訓練樣本,造成有用資訊的丢失和訓練的不充分。為了能得到更豐富的訓練樣本,又提出了multi-instance multi-labels的方法。該方法的假設是,同一個包中,一個sentence隻能表示(E1,E2)的一種關系,也就是隻能給出一個label,但是不同的sentence可以表征(E1,E2)的不同關系,進而得到不同的label。多label标注的label值不是正或負,而是某一種關系。它為同時挖掘一個實體對的多種關系提供了可能的實作途徑。另一種改進的方法是從一個包中選取多個valid sentences作為訓練集,一般與深度學習方法相結合,這種方法更詳細的講解和實作會安排在後續介紹深度學習模型的章節中。

知識圖譜的資料建構,就資料源而言,分為結構化資料,半結構化資料和無結構資料三類。其中,無結構資料是最龐大、最易擷取的資源,同時也是在處理和利用方面難度最大的資源。神馬知識圖譜建構至今,已經發展為一個擁有近5000萬實體,近30億關系的大規模知識圖譜。在經曆了前期以結構化和半結構化資料為主的領域圖譜建構階段,神馬知識圖譜的資料建構重點已經逐漸轉移為如何準确高效地利用無結構資料進行實體與關系的自動識别與抽取。這一建構政策使得神馬知識圖譜在通用領域的建設和可持續擴增方面有很強的競争力。

遠端監督算法利用知識圖譜的已有資訊,使得有監督學習中所需的大規模文本标注成為可能。一方面,遠端監督在很大程度上提升了有監督學習關系抽取的規模和準确率,為大規模的知識圖譜資料建構和補充提供了可能;另一方面,遠端監督對現有知識圖譜的資料和規模有較強的依賴,豐富的标注資料對機器學習能力的提升有很大幫助。為了充分利用知識圖譜規模和遠端監督學習這種相輔相成的特性,在神馬知識圖譜的現階段資料建構業務中,我們采用了以圖譜現有的大規模實體與關系資料為依托,以遠端監督算法為工具的關系抽取技術。

在上一章的綜述中,我們介紹過多種基于遠端監督思想的改進方法。在具體的業務實作中,我們選取了領域内與業務需求最為契合的兩種代表性方法:基于DeepDive的抽取系統和基于深度學習抽取算法。兩種方法相輔相成,各有優勢:DeepDive系統較多依賴于自然語言處理工具和基于上下文的特征進行抽取,在語料規模的選擇上更為靈活,能進行有針對性的關系抽取,且能友善地在抽取過程中進行人工檢驗和幹預;而深度學習的方法主要應用了詞向量和卷積神經網絡,在大規模語料處理和多關系抽取的人物中有明顯的優勢。在下面的章節中,我們來更詳細地了解這兩種方法的實作與應用。

DeepDive (http://deepdive.stanford.edu/) 是斯坦福大學開發的資訊抽取系統,能處理文本、表格、圖表、圖檔等多種格式的無結構資料,從中抽取結構化的資訊。系統內建了檔案分析、資訊提取、資訊整合、機率預測等功能。Deepdive的主要應用是特定領域的資訊抽取,系統建構至今,已在交通、考古、地理、醫療等多個領域的項目實踐中取得了良好的效果;在開放領域的應用,如TAC-KBP競賽、維基百科的infobox資訊自動增補等項目中也有不錯的表現。

DeepDive系統的基本輸入包括:

無結構資料,如自然語言文本

現有知識庫或知識圖譜中的相關知識

若幹啟發式規則

DeepDive系統的基本輸出包括:

規定形式的結構化知識,可以為關系(實體1,實體2)或者屬性(實體,屬性值)等形式

對每一條提取資訊的機率預測

DeepDive系統運作過程中還包括一個重要的疊代環節,即每輪輸出生成後,使用者需要對運作結果進行錯誤分析,通過特征調整、更新知識庫資訊、修改規則等手段幹預系統的學習,這樣的互動與疊代計算能使得系統的輸出不斷得到改進。

DeepDive的系統架構如下圖所示,大緻分為資料處理、資料标注、學習推理和互動疊代四個流程:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

1、 輸入與切分

在資料處理流程中,DeepDive首先接收使用者的輸入資料,通常是自然語言文本,以句子為機關進行切分。同時自動生成文本id和每個句子在文本中的index。doc_id + sentence_index 構成了每個句子的全局唯一辨別。

2、 NLP标注

對于每個切分好的句子,DeepDive會使用内嵌的Stanford CoreNLP工具進行自然語言處理和标注,包括token切分,詞根還原、POS标注、NER标注、token在文本中的起始位置标注、依存文法分析等。

3、 候選實體對提取

根據需要抽取的實體類型和NER結果,首先對實體mentions進行定位和提取,而後根據一定的配對規則生成候選實體對。需要特别注意,在DeepDive中,每一個實體mention的标定都是全局唯一的,由doc_id、sentence_index以及該mention在句子中的起始和結束位置共同辨別。是以,不同位置出現的同名的實體對(E1,E2)将擁有不同的(E1_id,E2_id),最終的預測結果也将不同。

4、 特征提取

該步驟的目的是将每一個候選實體對用一組特征表示出來,以便後續的機器學習子產品能夠學習到每個特征與所要預測關系的相關性。Deepdive内含自動特征生成子產品DDlib,主要提取基于上下文的語義特征,例如兩個實體mention間的token sequence、NER tag sequence、實體前後的n-gram等。Deepdive也支援使用者自定義的特征提取算法。

在資料标注階段,我們得到了候選實體對以及它們對應的特征集合。在資料标注階段,我們将運用遠端監督算法和啟發式規則,對每個候選實體對進行label标注,得到機器學習所需的正例和負例樣本。

1、 遠端監督

實作遠端監督标注,首先需要從已知的知識庫或知識圖譜中擷取相關的三元組。以婚姻關系為例,DeepDive從DBpedia中擷取已有的夫妻實體對。若候選實體對能在已知的夫妻實體對中找到比對映射時,該候選對标記為正例。負例的标注針對需要抽取的不同關系有不同的可選方法。例如可以将沒有在知識庫中出現的實體對标注為負例,但在知識庫收入不完整的情況下該方法會引入噪音負例;也可以用知識庫中互斥關系下的執行個體來做負例标注,例如父母-子女關系,兄弟姐妹關系,都與婚姻關系互斥,用于标注負例基本不會引入噪音。

2、 啟發式規則

正負樣本的标注還可以通過使用者編寫啟發式規則來實作。以抽取婚姻關系為例,可以定義如下規則:

Candidates with person mentions that are too far apart in the sentence are marked as false.

Candidates with person mentions that have another person in between are marked as false.

Candidates with person mentions that have words like "wife" or "husband" in between are marked as true.

使用者可以通過預留的user defined function接口,對啟發式規則進行編寫和修改。

3、 Label沖突的解決

當遠端監督生成和啟發式規則生成的label沖突,或不同規則生成的label産生沖突時,DeepDive采用majority vote算法進行解決。例如,一個候選對在DBpedia中找到了映射,label為1,同時又滿足2中第2條規則,得到label 為-1,majority vote對所有label求和:sum = 1 - 1 = 0,最終得到的label為doubt。

通過資料标注得到訓練集後,在學習與推理階段,Deepdive主要通過基于因子圖模型的推理,學習特征的權重,并最終得到對候選三元組為真的機率預測值。

因子圖是一種機率圖模型,用于表征變量和變量間的函數關系,借助因子圖可以進行權重的學習和邊緣機率的推算。DeepDive系統中,因子圖的頂點有兩種,一種是随機變量,即提取的候選實體對,另一種是随機變量的函數,即所有的特征和根據規則得到的函數,比方兩個實體間的距離是否大于一定門檻值等。因子圖的邊表示了實體對和特征及規則的關聯關系。

當訓練文本的規模很大,涉及的實體衆多時,生成的因子圖可能非常複雜龐大,DeepDive采用吉布斯采樣(Gibbs sampling)進行來簡化基于圖的機率推算。在特征權重的學習中,采用标準的SGD過程,并根據吉布斯采樣的結果預測梯度值。為了使特征權重的獲得更靈活合理,除了系統預設的推理過程,使用者還可以通過直接指派來調整某個特征的權重。篇幅關系,更詳細的學習與推理過程本文不做展開介紹,更多的資訊可參考DeepDive的官網。

疊代階段保證通過一定的人工幹預對系統的錯誤進行糾正,進而使得系統的準召率不斷提升。互動疊代一般包括以下幾個步驟:

1、 準召率的快速估算

準确率:在P集中随機挑選100個,看為TP的比例。

召回率:在輸入集中随機挑選100個positive case,看有多少個落在計算出的P集中。

2、 錯誤分類與歸納

将得到的每個extraction failure(包括FP和FN)按錯誤原因進行分類和歸納,并按錯誤發生的頻率進行排序,一般而言,最主要錯誤原因包括:

在候選集生成階段沒有捕獲應捕獲的實體,一般是token切分、token拼接或NER問題

特征擷取問題,沒能擷取到區分度高的特征

特征計算問題,區分度高的特征在訓練中沒有獲得相應的高分(包括正負高分)

3、 錯誤修正

根據錯誤原因,通過添加或修改規則、對特征進行添加或删除、對特征的權重進行調整等行為,調整系統,重新運作修改後的相應流程,得到新的計算結果。

在了解了DeepDive的工作流程之後,本章将介紹我們如何在神馬知識圖譜的資料建構業務中使用DeepDive。為了充分利用語料資訊、提高系統運作效率,我們在語料處理和标注、輸入規模的控制、輸入品質的提升等環節,對DeepDive做了一些改進,并将這些改進成功運用到業務落地的過程中。

NLP标注是資料處理的一個重要環節。DeepDive自帶的Stanford CoreNLP工具主要是針對英文的處理,而在知識圖譜的應用中,主要的處理需求是針對中文的。是以,我們開發了中文NLP标注的外部流程來取代CoreNLP,主要變動如下:

使用Ali分詞代替CoreNLP的token切分,删除詞根還原、POS标注和依存文法分析,保留NER标注和token在文本中的起始位置标注。

token切分由以詞為機關,改為以實體為機關。在NER環節,将Ali分詞切碎的token以實體為粒度重新組合。例如分詞結果“華盛頓”、“州立”、“大學”将被組合為“華盛頓州立大學”,并作為一個完整的實體獲得“University”的NER标簽。

長句的切分:文本中的某些段落可能因為缺少正确的标點或包含衆多并列項等原因,出現切分後的句子長度超過一定門檻值(如200個中文字元)的情況,使NER步驟耗時過長。這種情況将按預定義的一系列規則進行重新切分。

資料處理環節的另一個改進是添加了主語自動補充的流程。以中文百科文本為例,統計發現,有将近40%的句子缺少主語。如下圖劉德華的百科介紹,第二段中所有句子均缺少主語。

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

主語的缺失很多時候直接意味着候選實體對中其中一個實體的缺失,這将導緻系統對大量含有有用資訊的句子無法進行學習,嚴重影響系統的準确率和召回率。主語的自動補充涉及兩方面的判斷:

主語缺失的判斷

缺失主語的添加

由于目前業務應用中涉及的絕大多數是百科文本,缺失主語的添加采用了比較簡單的政策,即從目前句的上一句提取主語,如果上一句也缺失主語,則将百科标題的NER結果作為要添加的主語。主語缺失的判斷相對複雜,目前主要采用基于規則的方法。假設需要提取的候選對(E1, E2)對應的實體類型為(T1, T2),則判定流程如下圖所示:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

具體的主語補充執行個體和處理過程舉例如下:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

以百科文本為例,經實驗統計,上述主語自動補充算法的準确率大約在92%。從關系抽取的結果來看,在所有的錯誤抽取case中,由主語增補導緻的錯誤比例不超過2%。

DeepDive是一個機器學習系統,輸入集的大小直接影響系統的運作時間,尤其在耗時較長的特征計算和學習推理步驟。在保證系統召回率的前提下,合理減小輸入集規模能有效提升系統的運作效率。

假設需要提取的三元組為R(E1, E2)且(E1, E2)對應的實體類型為(T1, T2)。DeepDive的預設運作機制是:在資料處理階段,提取所有滿足類型為(T1,T2)的實體對作為候選,不考慮上下文是否有表達關系R的可能性。例如,抽取婚姻關系時,隻要一個句子中出現大于等于兩個的人物實體,該句子就會作為輸入參與系統整個資料處理、标注和學習的過程。以下五個例句中,除了句1,其它4句完全不涉及婚姻關系:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

尤其當句中的兩個人物實體無法通過遠端監督擷取正例或負例标簽時,此類輸入無法在學習環節為系統的準确率帶來增益。為減小此類輸入帶來的系統運作時間損耗,我們提出了以下改進算法:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

實驗證明,利用改進算法得到的輸入集規模有顯著的減小,以百科文本的抽取為例,婚姻關系的輸入集可縮小至原輸入集的13%,人物和畢業院校關系的輸入集可縮小至原輸入集的36%。輸入集的縮小能顯著減少系統運作時間,且實驗證明,排除了大量doubt标注實體候選對的幹擾,系統的準确率也有較大幅度的提升。

需要指出的是,雖然在輸入環節通過關系相關關鍵詞進行過濾減小輸入規模,能最有效地提高系統運作效率(因為跳過了包含特征提取在内的所有後續計算步驟),但該環節的過濾是以句子為機關,而非作用于抽取的候選實體對。來看一個婚姻關系提取的多人物示例:

除了孫楠、那英等表演嘉賓盛裝出席外,擔任本場音樂會監制的華誼兄弟總裁王中磊先生、馮小剛導演和夫人徐帆,以及葛優、宋丹丹、李冰冰等演藝明星也一一現身紅毯,到場支援此次音樂會。

因為含有婚姻關系相關的關鍵詞“夫人”,該句子将被保留為系統輸入。從該句提取的多個人物候選實體對需要依靠更完善的啟發式規則來完成進一步的标注和過濾。

關系抽取的絕大部分任務僅涉及三元組的抽取。三元組一般有兩種形式,一種是兩個實體具有某種關系,形如R(E1, E2),例如:婚姻關系(劉德華,朱麗倩);另一種是實體的屬性值,形如P(E,V),例如:身高(劉德華,1.74米)。DeepDive預設的關系抽取模式都是基于三元組的。但在實際應用中,有很多複雜的關系用三元組難以完整表達,例如,人物的教育經曆,包括人物、人物的畢業院校、所學專業、取得學位、畢業時間等。這些複雜的多實體關系在神馬知識圖譜中用複合類型來表示。是以,為使抽取任務能相容複合類型的建構時,我們對DeepDive的代碼做了一些修改,将候選實體對的提取,擴充為候選實體組的提取。代碼修改涉及主抽取子產品中的app.ddlog、底層用于特征自動生成的DDlib和udf中的map_entity_mention.py、extract_relation_features.py等檔案。下圖展示了一個擴充後的實體組抽取執行個體,抽取關系為(人物、所在機構、職位):

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

本節首先給出一個輸入示例以及該示例在DeepDive運作過程中每一步的輸出結果,如下圖所示。通過這個示例,我們可以對DeepDive各子產品的功能和輸出有更直覺的認識。

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進
知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

為了更詳細地了解DeepDive的應用和改進算法的效果,以下我們給出一個具體的婚姻關系抽取任務的相關運作資料。

下表顯示了該抽取任務在資料處理階段各步驟的的耗時和産出數量:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

在資料标注的遠端監督階段,我們除了使用知識圖譜中已有的夫妻關系做正例标注,還使用了已有的父母-子女關系和兄弟姐妹關系做負例标注,得到正例數千個,正負标注候選實體的比例約為1:2。

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

在DeepDive系統中,遠端監督的wrong label problem可以依靠合理編寫的啟發式規則得到一定程度的糾正。觀察婚姻關系的wrong label樣例,我們發現較大比例的wrong label是夫妻實體以某種合作形式(如合作演出、合作演唱、合作著書等)共現在一個句子中,夫妻實體有一個出現在書名号中時,也容易發生誤判。例如:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

類似的觀察和總結可以編寫成啟發式規則,依靠從規則得到的負标注抵償遠端監督得到的正标注,減小系統在學習和推理時的偏差。

雖然啟發式規則的編寫大多依靠專家知識或人工經驗完成,但規則的完善和擴充可以依靠某些自動機制來輔助實作。例如,規則定義:句中出現“P_1和P_2結婚”,則(P_1,P_2)得到正标注。根據對“和”和“結婚”等token的擴充,我們可以得到“P_1與P_2結婚”、“P_1和P2婚後”、“P_1和P_2的婚禮”等類似應該标注為正的語境。這裡,token的擴充可以通過word2vec算法加人工過濾實作。下表給出了該抽取任務中用到的規則和相應的統計資料。整個資料标注過程耗為14m21s。

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

學習與推理過程耗時約38m50s。我們随機截取了部分知識圖譜未收錄的預測實體對的輸出結果展示如下:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

對于系統的準确率,我們取expectation為 [0.95,1][0.95,1] 區間内的輸出結果進行分段統計,統計結果如下列圖表所示:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

對系統預測的錯誤樣例進行分析,我們總結了幾種錯誤類型,下表按照出現頻率從高到低,給出了錯誤描述和錯誤示例:

知識圖譜資料建構的“硬骨頭”,阿裡工程師如何拿下?背景簡介關系抽取概述神馬知識圖譜建構中的關系抽取方法選擇DeepDive系統介紹神馬知識圖譜建構中的DeepDive應用與改進

系統召回率的計算相比準确率的計算更為複雜,在語料規模較大的情況下,準确估算召回率将耗費大量的人力。我們采用了抽樣檢測的方式來估算召回率,具體實踐了以下三種方法(統計中expectation均取>=0.95):

抽樣含有某個指定實體的所有sentences,計算召回:含實體 “楊幂” 的sentences共78例,含 (楊幂, 劉恺威)實體對的sentences共13例,人工判斷其中9例描述了該實體對的婚姻關系,其中5例被召回,召回率為0.556。

用于遠端監督正例标注的知識圖譜實體對超過4000對,統計表明,其中42.7%的實體對出現在了語料中,26.5%的實體對被召回,召回率為0.621。

輸入集随機挑選100例positive cases,其中49例的expectation值>=0.95, 召回率為0.49。

基于DeepDive的關系抽取研究目前已較為完整,并已經在神馬知識圖譜的建構業務中落地。目前在資料建構中的應用涉及人物、曆史、組織機構、圖書、影視等多個核心領域,已抽取關系包括人物的父母、子女、兄弟姐妹、婚姻、曆史事件及人物的合稱、圖書的作者、影視作品的導演和演員、人物的畢業院校和就業機關等。以百科全量語料為例,每個關系抽取任務候選sentence集合的規模在80w至1000w,經改進算法過濾,輸入規模在15w至200w之間,生成的候選實體對規模在30w至500w之間。系統每輪疊代運作的時間在1小時至8小時之間,約經過3-4輪疊代可産出準确率和召回率都較高的資料給營運稽核環節。系統運作至今,已累計産出候選三元組近3千萬。

原文釋出時間為:2018-03-14

本文作者:遊維

繼續閱讀