天天看點

論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年

Twenty-five years of information extraction

資訊抽取的25年

目錄

  • Twenty-five years of information extraction
  • 資訊抽取的25年
    • 摘要
    • 1.簡介
    • 2.語料庫之前:基于規則的系統
      • 2.1解析或不解析
      • 2.2建立領域模型
      • 2.3劃分任務
    • 3.監督方法:ACE
      • 3.1實體、關系和事件
      • 3.2命名實體
      • 3.3實體
      • 3.4關系
      • 3.5事件
    • 4.半監督方法
    • 5.深度學習
    • 6.使用者生成媒體
    • 7.評價
    • 8.展望未來
    • 附錄A. MUC-2模闆
    • 附錄B. MUC-3的示例消息和模闆
    • 附錄C. ACE實體、關系和事件

摘要

  資訊抽取是将非結構化文本轉換為包含從文本中選擇的資訊的結構化資料庫的過程。這是使文本的資訊内容可用于進一步處理的重要步驟。在本文中,我們描述了資訊抽取在過去25年中的變化,從手工編碼規則到神經網絡,還有一些停留的過程。我們将這些變化與NLP的研究進展以及美國政府組織的評估聯系起來。

  關鍵詞:資訊抽取;資訊了解

1.簡介

  周年紀念日使我們有機會回顧過去25年的資訊抽取(IE),請考慮發生了什麼變化以及發生這些變化的原因。

  首先,有一些定義:

  IE是自動識别和分類使用者指定類型的實體、關系和文本事件的執行個體。輸出是可以由其他應用程式容易解釋的結構化資訊(例如,資料庫)。說明書可以采取示例或對要抽取的資訊的口頭描述的形式。使用者認為等效的文本應映射到相同的輸出結構。

  盡管有例外,但要抽取的資訊僅限于特定個人和特定事件。排除了一般資訊,如條件資訊、知識陳述和信念。這些限制旨在使任務比一般的語言了解更易于處理,輸出内容更易于解釋。

  這與開放式IE不同,開放式IE将文本簡化為一組基本句子(主語-動詞-賓語三元組)供人類消耗或搜尋(但不一定涉及将替代的口頭描述折疊成規範形式)。

  盡管現在通用評估語料庫是NLP大部分領域的組成部分,但美國政府的共享評估在IE的發展中發揮了特别重要的作用。盡管這些評估被稱為“會議”,但它們涉及的内容更多:任務說明、參與者執行任務的系統、測試資料的釋出及其處理和評分。在過去的30年中,我們進行了三項主要評估:

  MUC(消息了解會議)開始于1988年以評估IE,MUC将IE建立為NLP的主要應用(Sundheim 1996)。

  ACE(自動内容抽取)用幾十個一般關系和事件代替了填充一個複雜且特定任務的模闆。産生了大量帶注釋的訓練資料,促進了監督方法的發展(Doddington et al. 2004)。

  KBP(知識庫擴充)增加了要處理的資料的規模,其目标是建立一個連接配接數以萬計的具有約40個關系的實體的統一資料庫,然後回答有關所選實體的問題。提供最少的帶注釋的訓練資料,進而鼓勵采用半監督方法(Ji and Grishman 2011)。

  IE的定期評估反過來又成為了NLP其他許多領域評估的模型。

  頻繁的評估(每1或2年)可以準确了解過去30年中使用IE的各種方法。評估中的每個參與者都需要提供(多頁)系統描述。參加者包括大學和工業界,并受其激勵(與政府簽訂合同的可能性),将他們認為是“最佳實踐”的東西并入,而不僅僅是最流行的方法。

  由于會議都是由美國政府機構組織的,是以最初的參與者主要來自美國就不足為奇了。但是随着會議的進行,他們具有了更國際化的特征。到2005年,在15個小組中有6個不在美國。到2010年,KBP的20位參與者中隻有7位來自美國,6位來自歐洲,其餘分布廣泛。

2.語料庫之前:基于規則的系統

  如果我們将時間倒退到1994年(25年前)以及本期刊的開頭,我們将發現一種新的NLP技術正在引入更廣闊的世界。

  最近十年的資訊爆炸式增長,對處理和分析大量線上資料提出了越來越高的要求。作為響應,進階研究計劃局(ARPA)一直在支援研究以開發一種稱為IE的新技術。 IE是一種文檔處理,可以捕獲并輸出文檔中包含的事實資訊。 IE系統類似于資訊檢索系統,可以響應使用者的資訊需求。資訊檢索(IR)系統識别大型文本資料庫中文檔的子集,或者在圖書館場景中識别圖書館中資源的子集,而IE系統識别文檔中資訊的子集(Okurowski 1993)。

  該公告基于一系列MUC,這些MUC定義了IE的任務及其評估。會議系列始于1988年,當時是應邀參加NOSC(海軍海洋系統司令部)的會議(“ MUC-1”),讨論如何評估IE。為了能夠比較系統,就需要共享模闆以捕獲文檔中最重要的資訊達成了共識。将根據系統填充這些模闆插槽的準确性來判斷系統。 MUC-2代表了這種評估的嘗試; MUC-3同意使用召回率,精度和F度量進行評分。 (F度量是召回率和精度的諧波均值,被建議作為為參與系統配置設定等級的主要度量。)

MUC-1和MUC-2都使用海軍演習資訊流量(“rainforms”和“ opreps”)作為語料。典型的消息如下:

22.1 VISUAL SIGHTING OF PERISCOPE FOLLOWED BY ATTACK WITH ASROC AND TORPEDOS.

22.2 SUBMARINE WENT SINKER.

22.3 LOOSEFOOT 722/723 CONTINUE SEARCH.

22.4 FOUR BUOY ROAD PLACED BETWEEN CONSTELLATION AND DATUM.

  附錄A中顯示了為MUC-2計劃的模闆。

  MUC-3和4使用了拉丁美洲的恐怖主義新聞(Chinchor et al. 1993)。附錄B中顯示了示例消息以及從該消息生成的已填充模闆之一。

  随着任務的定義更加清晰,參與者的數量也在增加。根據MUC-5,1993年有16名參與者,大學和公司(主要是國防承包商)平均配置設定(MUC 1993)。 MUC任務在其他方面也越來越大。 MUC-5的參與者可以選擇兩種抽取主題(合資企業或微電子學)和兩種語言(英語或日語)。模闆比往年要複雜得多。在MUC-5之後,簡化了任務以限制參與所需的工作。為了強調針對新領域的IE系統的更快開發,從釋出訓練材料到實際評估的時間減少到一個月。 MUC-6涉及高管繼任; MUC-7涉及火箭發射。

  參與多個MUC導緻抽取體系結構的融合,這是一個冗長的流程,其中包括一些熟悉的名稱(Hobbs 1993)。很快變得清晰起來,例如,識别名稱的預處理是至關重要的。但是仍然存在一些基本分歧。

2.1解析或不解析

  一個分歧涉及全句分析。IE的工作是分析輸入文本的結構,然後在該結構的指導下生成指定的輸出關系。問題是要建立多少結構。一個可能的答案是建立一個完整的分析樹,進而定義句子中每個詞的作用。但是,在1990年做到這一點并不容易。文法是手工建構的,要麼太緊(無法解析1/3到1/2的句子),要麼太松散(産生了數十個解析)。典型的解決方案是将嚴格的文法與一種機制結合起來,以在無法進行完整句子解析的情況下恢複部分解析。對于MUC-5,一半的參與者(8)試圖為每個句子生成完整的分析;目前還不清楚它們有多成功。大多數的演講者支援一種語言形式主義: GB(政府限制理論)、LFG(詞彙功能文法)、HPSG(頭部驅動的短語結構文法)和CCG(組合分類文法)代表了MUC-5。

  完全解析的主要替代方法是部分解析(分塊)。這是更快、更可靠的方法,但是隻生成了一些所需的結構。語義模式必須完成其餘的工作。例如,考慮雇用高管的“name”事件。它可能顯示為一個簡單的主動句子,即“IBM named Fred president” (pattern company named person position),一個被動句子,“ Fred was named president of IBM”,一個相對從句,“Fred, who was named president of IBM”,等。這對于表示一個事件的句子是可以的,但是考慮到表示兩個事件的句子:

Fred, who was named president of IBM last year, suddenly resigned

yesterday.

  關系從句的模式仍然比對,但是另一個事件(Fred … resigned)被分為兩部分。建立一套完整的模式來處理所有這些情況非常棘手。

  SRI團隊提供了一個簡潔的解決方案。他們實施了不确定性适用的事件規則,并可能跳過標明的組成部分。例如,“resigned”的簡單現用句子模式已擴充為

person relativePronoun (nounGroup | other)* verbGroup (nounGroup |

other)* resigned

  可以跳過關系從句,同時比對“ Fred”和“ resigned”。由于不确定地應用了模式,是以兩個模式都将比對,并且将報告兩個事件。最終的系統FASTUS既快速又有效(Hobbs et al. 1993 1997)。 SRI研究人員謹慎地指出,此解決方案适用于IE,但不适用于需要捕獲事件之間關系的一般語言了解任務。

  這時,第一個經過語料庫訓練的系統用于詞性标注(Church 1988)。他們比基于規則的前任要精确很多,并且開始在MUC-5中發現一些有限的用途。

2.2建立領域模型

  一旦對輸入資料進行了句法分析,我們必須檢測到感興趣的提及,确定它們的論據,并生成輸出結構。盡管通過不同的站點以不同的術語進行了描述,但這通常是通過語義模式比對過程實作的。模式由英語詞、特定領域的詞類和句法角色組成。如果系統生成了全語句解析樹,則該模式必須比對子樹;如果系統生成了塊序列,則該模式必須比對一個子序列。

  研究源文本并建立領域模型仍然是一種技巧。如果詞類太籠統或模式太簡短,系統将過度抽取(低精度)。很有可能将省略某些模式,并且系統将抽取不足。

探索(部分)自動化此過程的可能性的一個站點是來自麻省大學Amherst分校的小組,該小組參加了MUC-4。大多數MUC任務規範都包含少量(通常為100個)帶有手工标注的示例文檔。對于MUC-3和MUC-4,政府提供了這100個帶批注的文檔,但也提供了1000多個未加标簽的文檔,其中一半是同一主題。這為半監督學習者提供了一個機會。檔案已被抹黑,其中包括relevant event(在本例中為恐怖事件),而那些事件沒有。這比用文檔的插槽填充注釋文檔要小得多。同時,對語料庫進行了解析,并為語料庫中的每個名詞短語記錄了其直接上下文(通常是主語-動詞-賓語結構)。然後,他們針對每個上下文計算了包含與抽取任務相關的短語的文檔分數。這些被排序,并且排名最高的短語被收集為有希望的抽取模式(Riloff 1996)。這組模式在IE上與一組手動選擇的模式一樣有效。

  Pens TreeBank建成于1990年代中期(Marcus et al. 1993),導緻了一系列經過treebank訓練的解析,其準确性不斷提高(Collins,1996),并使全語句解析更具競争力。這為時已晚,無法對其餘兩個MUCs産生重大影響— BBN是唯一一個結合了基于treebank的解析的站點(Miller et al. 1998年)。但是,對于為需要精确解析的監督方法做好充分準備的領域。

2.3劃分任務

  直到MUC-5,參與MUC的唯一方法是建立一個完整的系統來填充事件模闆,這可能需要多個元件子系統。為了鼓勵開發這些元件,MUC-6劃分了三個任務,分别是命名實體标注、共指、模闆元素,并分别進行了單獨評估(Grishman and Sundheim 1996)。這些被視為與場景無關的更一般的任務。原始任務被稱為方案模闆。我将更多的注意力放在這些任務上,并支援專注于一項任務的NLP專家的崛起。進行單獨評估也可以“plug and play”。 MUC-7添加了第五項任務,即模闆關系任務。

  特别是命名實體任務很快就擁有了自己的生命。它有很多事情要做。這很容易解釋。實作一個表現出有用性能的系統(使用手工編碼的規則)并不是太困難。在引入機學習方法的同時,就可以完成單獨的任務。它本身很有用。

  最後,在MUC-7之後,人們提出了有關持續MUC的價值的問題。其中一些模闆非常具體,MUC-5包含一個具有40多個插槽的模闆。這導緻了很多與IE技術沒有直接關系的工作。表現最好的得分似乎都有在F = 50-60時達到最高。為此成立了一個工作組,該工作組建議抽取一組基本事件及其論據,而不是抽取整體模闆(Hirschman et al.1999)。這成為ACE程式(始于2001年)的基本主題。

3.監督方法:ACE

3.1實體、關系和事件

  在ACE中,每個文檔中的資訊由一組實體、關系和事件表示。有七種實體、六種關系和八種事件。這些類型在附錄C中顯示;每個類型進一步分為子類型(未顯示)。關系是二進制的;事件可以具有任意數量的論元。除少數例外,論元必須是實體或時間表達式(是以不包括将其他事件作為論元的關系或事件)。關系或事件的論元必須出現在同一句子中。這使注釋更容易處理。它也簡化了模組化,因為它減少了對分類任務的關系标注(對同一句子中的所有實體對進行分類)。

  帶有注釋的ACE評估語料庫仍被廣泛用作IE的基準。特别是,用于2005年評估的三種類型的資料結構仍被用于注釋其他資料(Aguilar et al.2014)。

  另一個基本主題的監督訓練。從MUC和同時期的NLP研究中可以清楚地看到,對訓練資料進行注釋可能是提高抽取性能的有效方法。為了支援這種訓練,在語料注解上進行了大量投資。每年釋出新的語料庫。在ACE 2005上,最大的是300,000個英語詞,以及相當數量的中文和阿拉伯語。

  此外,為了評估抽取的魯棒性,其中一個版本包含了音頻轉錄本和OCR(光學字元識别)的嘈雜輸出,但是并未對此進行進一步追求。

  正如我們已經指出的,在1990年代初期,NLP的核心任務已經轉移到語料訓練的模型,最初用于詞性标注,然後用于解析,這大大提高了中間結果的品質。

  我們将依次考慮每種類型的IE結構最流行的模型:命名實體、實體、關系和事件。

3.2命名實體

  該元件的一般作用是識别和分類我們語料庫中的所有名稱。更抽象地講,它的工作是封裝不屬于核心語言的所有雜亂、臨時結構。除名稱外,還可以包括位址,一天中的時間和化學式(Nadeau and Sekine 2007)。

  這本質上是一個序列标注問題,通常可以通過token級的MEMM(最大熵馬爾可夫模型)或CRF(條件随機場)解決(Nadeau and Sekine 2007)。利用帳戶的全局功能有一個小的好處,那就是可以使文檔之間的名稱保持一緻:如果在兩個文檔中出現相同的名稱,則我們傾向于将兩個執行個體配置設定為相同名稱類型的分析(Finkel et al. 2005)。要對訓練中未出現的名稱進行分類,需要使用許多功能-主要是形狀、字首和字尾。在某些頂級系統中,這種基于功能的方法已被運作雙序列模型的系統所取代,該系統運作在token級,在字元級運作一個雙序列模型(Klein et al. 2003)。

3.3實體

  實體生成通常将在解析輸出上運作。它有兩個主要功能:将核心短語組合在一起并為每個組配置設定一個語義類型。ACE有七個實體語義類型,如附錄C所示。不屬于這七個類型之一的組将被删除。剩下的是一組實體,每個實體都包含一組提及的實體。

  共參照使用了幾種類型的模型,主要是提及模型(首先将每對實體的提及分類為共同參照的可能性,然後解決沖突)和提及實體模型(對文檔進行一次周遊,處理實體以文本順序進行提及,或者将提及配置設定給先前建立的實體,或者構造新的實體)(NG 2017)。

3.4關系

  如前所述,由于關系是同一句子中成對的實體之間的關系,是以可以将關系标注看成分類問題,将每對實體分類為關系類型或NONE。使用最大熵方法進行了廣泛的研究,并嘗試了多種功能,包括詞、實體類型和依賴關系(Kambhatla 2004; Jiang and Zhai 2007)。核方法也已成功使用(Zhao and Grishman 2005)。

3.5事件

  正确處理事件更具挑戰性,因為它涉及觸發(定義事件的主要詞)和多個論元的互相作用。是以,它是結構化的預測任務。最簡單的解決方案是首先确定事件的類型(如果有),然後分析論元(Ahn 2006)。但是,這失去了相當大的準确性,因為對于許多常用動詞,其含義取決于所采用的論點。例如,發射人員與發射火箭是不同類型的事件。

  更好的解決方案是使用聯合推理:如果标簽選擇互相影響,則可以優化它們的組合。除了事件類型與事件論元之間的互動作用外,相鄰事件的類型之間也存在互動作用(攻擊常與死亡并存)(Li et al. 2013)。

  事件抽取之後是事件共指,事件共指的作用是識别同一事件的多個提及。與實體共指一樣,有幾種可行的政策,包括提及對模型和提及排名模型(Lu and Ng 2018)。這些模型依賴于提及的論元結構:如果事件類型一緻且論元值相容,則它們将一對事件提及歸為潛在的潛在幹擾。可以通過引導學習一些相容論元的示例,但性能不高(Huang et al. 2019)。部分原因是事件共指的許多情況都很複雜,涉及遏制或部分重疊。

4.半監督方法

  ACE在産生帶注釋的語料和研究結果方面是成功的,但是存在一些未解決的問題。特别是,它單獨處理文檔,而許多現實任務涉及大量互相關聯的文檔。有關個人的資訊可能需要從多個文檔中拼湊而成。為了解決這些問題,NIST(美國國家标準技術研究院)組織了年度“文本分析會議”,其中心任務是“知識庫擴充”(KBP)(Ji and Grishman 2011)。從2009年開始,KBP任務逐年增加了其他元件。當資料集基本完成時,我們将描述截至2017年的“Cold Start”變體。

  為參與者提供了大量未注釋的文檔,各種報紙文章和部落格,以及兩到四百萬種英語、中文和西班牙語的文檔。一個小的其中每種語言的30,000個文檔中的一部分用作測試語料庫;預計站點将建構一個圖形,其中每個節點代表測試集中提到的個人、組織、GPE(地緣政治實體)、位置或設施。與每種類型的節點相關聯的是一組屬性。其值可以是數字、日期、字元串或網絡中的另一個節點。例如,人員節點将具有age屬性,該屬性的值是整數,并且city_of_birth是GPE節點。

  另外,站點必須将實體連結到測試集中出現的事件的論元。

  與ACE相比,測試語料約大兩個數量級。在這種規模下,對測試語料庫進行完整的手動注釋是不可行的。評分是通過抽樣完成的:NIST選擇了測試語料庫中提到的一些名稱,并檢查(1)系統是否為此名稱建立了一個節點,以及(2)該節點是否具有所需的屬性。用于各種注釋任務的訓練文檔非常少——運作任務的第一年提供的樣本很少,随後的幾年中通過評分所需的注釋進行了補充。

  大量的未注釋資料和缺少注釋的訓練鼓勵使用半監督方法進行實驗——從部分标注的資料中學習。最直接的是将MUC-4中的早期工作推廣到自舉,這是一種從标注小種子開始的疊代政策。自舉成功地應用于場景模闆(Yangarber et al. 2000)、命名實體(Collins and Singer,1999)以及關系(Agichtein and Gravano 2000)。然而,并非總是能保證成功。添加錯誤的元素可能會導緻引導程式嚴重誤入歧途。

  參與者還獲得了一個大型資料庫BaseKB。這使研究人員能夠探索一種訓練關系分類的方法,稱為遠距離監督(Mintz et al. 2009)。遠端監督的基本思想是将一組現有的事實轉換為帶注釋的語料庫,然後使用帶注釋的語料庫以正常方式訓練分類。假設我們有一個資料庫,其資料庫具有對R由<x1,y1>,<x2,y2>,…對組成,并且其中一些對出現在由單詞序列wi分隔的語料庫中。我們将注釋表示關系R的每個序列。

  基本模型做出了強有力的假設,而實際資料并不能滿足這些假設。假定如果對與語料庫中的句子比對,則該句子表示關系R。違反此假設會導緻帶噪注解的語料庫,其中包含許多假陽性和假陰性。另一種MIML(MultiInstance MultiLabel)模型僅要求該對中的至少一個執行個體表示一個關系,并且該對可以表示多個關系标簽。該模型平均導緻更清晰的注釋(Surdeanu et al. 2012)。通過将遠端監督與一些手動注釋的資料相結合,可以實作進一步的改進(Pershina et al. 2014)。

  還正在嘗試更基礎的方法,包括few-shot方法,甚至zero-shot方法。這些解決了您擁有事件抽取的情況,該事件抽取可以識别N個事件類型,現在希望增加識别N +第一個事件類型的功能。在few-shot方法中,提供了少量的訓練資料;在zero-shot方法中,沒有提供其他訓練資料。Huang et al.(2018)建議基于事件的論元在共享語義空間中建立事件類型和事件執行個體的基礎,然後在給定新的事件執行個體的情況下,将其配置設定給最接近的類型。 Levy et al.(2017)将一個關系轉換為一組問題,然後依靠閱讀了解系統來回答這些問題。

  遠端監督能否勝過手工建構的模式或監督訓練取決于幾個因素。手工準備圖案需要相當的技巧和洞察力,但可能會産生相對幹淨的(高精度)系統。帶注釋的語料庫的準備可能需要較少的技能,但需要更多的時間。遠端監督需要最少的勞動,但可能會産生最嘈雜的模型。最好的方法很可能将涉及這些方法的某種組合。

5.深度學習

  在過去的幾年中,深度學習(多層神經網絡)的發展已對所有NLP産生了巨大的影響;IE也不例外。

  與之前的可訓練模型(主要是最大熵模型)相比,神經網絡具有一個主要優勢:隻要有足夠的訓練資料和時間,它們就可以捕獲其輸入的任意功能。這意味着它們不需要手工特征工程。另一方面,時間因素可能很重要;引用一到兩周的訓練時間并不罕見。

  盡管以前的模型在某種程度上利用了順暢的詞彙依存性,但詞通常被視為離散的符号。如果需要矢量表示,它将采用稀疏1-hot向量的形式。但是,實用的神經網絡需要使用連續值,低維向量進行表示。實際上,每個詞都由d空間中的一個點表示,術語編輯了詞嵌入。開發了幾種捕獲詞彙語義特性的方法,特别是語義相似的詞将在d空間中出現。

  此處請注意深度學習IE模型的某些方面。目前使用LSTM(長短期記憶)的主要網絡類型為CNNs(卷積神經網絡)和RNNs(遞歸神經網絡)(Yin et al. 2017)。

  5.0.0.1命名實體。目前,通過将兩token/字元模型與上下文詞嵌入結合起來,獲得了最佳命名實體的性能(Akbik et al. 2019年)。标準測試集的性能(CONLL用于2003年評估的Reuters新聞專線)已從 2003年的F測量值為89,到F的測量值為93(Li et al. 2018)。

  5.0.0.2關系。CNNs提供了特别簡單的網絡結構,但是卷積在固定的視窗大小内運作,這可能會限制捕獲跨越整個句子的依存關系的能力。 ACE關系大多數是在近距離實作的,實體之間的間隔少于四個字。這使得使用CNN進行關系抽取變得合理。Nguyen and Grishman(2015)報告了帶有兩個、三個和四個token的視窗的良好結果。

  5.0.0.3事件。如上所述,事件抽取可以涉及多個互動,這些互動可以受益于聯合推理。在神經網絡中,可以通過一組“memory matrices”直接捕獲這些互動,将其值配置設定為網絡訓練的一部分,然後用于事件觸發和論元預測(Nguyen et al. 2016)。

  事件抽取在很大程度上是詞歧義消除的問題。但是直到最近,每個詞都被配置設定了一個詞嵌入,是以沒有捕捉到意義上的差別。上下文詞嵌入可放松該限制,使嵌入取決于上下文。在ACE語料庫上使用上下文詞嵌入可以将事件分類提高約2點F度量(Lu and Nguyen 2018)。

6.使用者生成媒體

  過去幾年中的另一個重要補充是對使用者生成的資料的處理。 Twitter成立于2006年;目前每天發送大約5億條推文。自動監控的推文提供了目前活動的首屈一指的來源,是以它們已成為NLP開發人員的目标(Panem et al. 2014)。現在,有一個關于此類非正式交流的年度研讨會,WNUT(“Workshop on Noisy User-Generated Text”,網站http://noisy-text.github.io/)。

  但是這些推文與大多數NLP所針對的新聞專欄的編輯内容截然不同。這些推文可能包含許多拼寫錯誤、标點符号很少或沒有标點符号以及新創造的術語。結果,受過編輯文本訓練的标注在推文上的表現不佳(例如,排名最高的命名實體标注在标準路Reuters測試語料庫中獲得的F分數超過90%,而在推文語料庫中獲得的F分數約為40%) 。

  WNUT研讨會包括年度多站點評估,但是這些經過推文優化的系統的性能并沒有改善。2016年評估中的最高績效為F = 52%(Strauss et al. 2016)。通常,标注使用與上述相似的設計,主要是使用LSTMs建構的CRFs和RNNs。由于各個推文提供的上下文要少得多,是以推文标注者必須更多地依賴于名稱清單(例如,gazetters)。利用全局一緻性(在不同的推文中為相同的token配置設定相同的标注的偏好)也很重要(Ritter et al. 2011; Liu et al. 2011; Cherry and Guo,2015)。 (正如我們前面提到的,全局一緻性在标注已編輯的文本中也起着作用,但作用較小)。

7.評價

  乍一看,IE評估似乎相當簡單。我們已經在MUC-3上同意使用召回率、精确度和F度量進行評分。我們準備一個密鑰,并将其與IE系統的響應進行比較。

論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年

  很快就明白事情不會那麼簡單。系統應該為每個事件生成一個模闆。如果文檔報告了兩個事件,則應填寫兩個模闆。但是,系統響應未明确指定如何将密鑰和響應中的模闆配對。為了解決此問題,生成了關鍵和響應模闆的可能對齊并對其進行了評分,并報告了最高評分(MUC無日期)。如果一個事件中有多個參與者,則類似的問題會在較小的規模上出現。通常,當将新任務添加到MUC時,此召回/精确模型可提供令人滿意的直覺評分。一個例外是共指任務。最初設計了一種評分方案,并在MUC會議上提出了一種優雅的替代方案,但似乎都不直覺。迄今為止,在共指評分名額上存在分歧(Luo 2005)。

  當MUC分為四個任務和後來的五個任務時,每個任務都有自己的評分标準,這很有意義,因為每個任務都可以獨立使用。相比之下,ACE評估是基于一組針對實體、關系和事件的并行代價模型。每個模型都結合了檢測、分類、聚類(即,共指)和其他功能。官方分數(“ ACE值”)基于所有這些因素,并進行了适當權重。為正确識别的每個元素配置設定一個正值,并對每個錯誤的輸出收取虛假的警告罰款。如果錯誤數量超過正确識别的元素數量,則得分可能為負(Doddington et al. 2004年)。這是标準的ROC(接收工作特性)模型,但對參與者不直覺;是以,它被用于正式的政府報告,但在已發表的文獻中很少使用.

  代替代價模型,大多數研究人員報告關系和事件的召回/精确度得分。這些分數高度依賴于實體抽取的準确性,因為隻有實體可以用作關系和事件的論元。為了隔離對關系和事件抽取的改進,大多數研究人員認為,關系或事件抽取具有完善的功能。有關實體的資訊,與運作真實實體抽取相比,這具有産生更高(更樂觀)分數的好處。

  随着轉向能夠表示學習的深度學習标注的發展,一些研究人員現在認為關系标注對實體的資訊很少,隻有它們在句子中的位置,而不是語義類型。比較标注性能時,必須考慮這些變化(反映不斷變化的研究目标)。

8.展望未來

  我們已經簡要描述了過去25年中為建構IE系統而開發的各種方法,以及伴随這些方法的引入而逐漸提高的任務性能。結果是在金融(Ding et al. 2015)、醫學(Wang et al. 2018)和科學(Peters et al. 2014)中的應用越來越多。盡管如此,經過25年的發展,其性能(F評分)僅從标準事件分類基準的60年代低位發展到70年代低位,在進一步提高分數方面還存在嚴重的障礙。我們的前景如何?

  (1)在某些方面,标準基準測試(從新聞專線和部落格中得出)特别困難,因為主題範圍如此之大,增加了事件分類錯誤的風險。大多數應用程式涉及的主題範圍較窄,是以比基準測試具有更高的性能。

  (2)人工注釋中會存在錯誤和不确定性,這限制了我們可以獲得的分數。這甚至适用于使用雙重注釋和解釋精心準備的文本,例如ACE語料庫。注釋關系需要确定兩個容易被忽略的端點。相對抽象的類别将在關系和事件的分類中領先于保留性(Min and Grishman 2012)。我們應該将這種模糊性視為自然語言的力量的一部分,并在我們的評估中予以考慮。

  (3)将有一些需要世界知識和推論的例子。例如,ACE事件包括電話事件(聯系人的子類型)。給出句子“Fred phoned Jim and he later returned the call.”該系統必須能夠推斷Jim後來打電話給Fred。正确處理此類情況可能需要對事件進行更深入的模組化。在狹窄的域中這是更可行的。

  (4)訓練資料不足。我們希望通過将ACE訓練資料的數量增加一倍,可以在事件抽取方面獲得百分之幾的改進。但是,當資料是政府的一項重大投資時,“just”一詞可能不合适。展望未來,我們無法為每個想要擁有自己的IE系統的人提供類似的投資。在這裡,我們可以通過半監督或無監督的方法來儲存。至少,不受監督的系統可以提供關系和事件類型的核心,然後可以使用某種形式的域自适應來針對特定使用者進行擴充和調整。

  (5)管道問題。IE仍然是一個多階段的過程,其中早期階段可能會引入錯誤,後期階段會放大這些錯誤。聯合推理政策可以減少這種影響。

我們應該記住,深度學習仍然是一項年輕的技術,我們可以期望機器學習會得到持續的改進,就像來自變形金剛(BERT)的雙向編碼表示和上下文嵌入的出現使許多系統都在後期發展一樣(Devlin et al. 2018)。是以,我們的持續改進前景似乎很好。

  随着性能的提高,具有商業可行性的應用程式數量将繼續增長。為了保持其平台的市場佔有率,每一個“技術巨頭”(以及多家初創企業)現在都希望提供一個NLP API,其中包括管道中的所有元素,并不斷對其進行更新,進而帶來新的狀态。最先進的NLP元件更接近IE應用程式。在這種市場驅動的環境中,政府通過資助新的評估來指導研究的需求可能會減少。

附錄A. MUC-2模闆

論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年

附錄B. MUC-3的示例消息和模闆

論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年
論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年
論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年

附錄C. ACE實體、關系和事件

論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年
論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年
論文閱讀:Twenty-five years of information extraction 資訊抽取的25年Twenty-five years of information extraction資訊抽取的25年

繼續閱讀