KBP2016 是由 NIST(National Institute of Standards and Technology,美國國家标準與技術研究院)指導、美國國防部協辦的賽事,主要任務為從自然書寫的非結構化文本中抽取實體,以及實體之間的關系。
美國當地時間 2016 年 11 月 15 日,NIST 揭曉 KBP2016 EDL 大賽結果。其中,科大訊飛包攬了本屆 EDL 比賽的冠亞軍。
機器之心第一時間采訪了科大訊飛研究院研究員劉丹,從 KBP2016 比賽情況、KBP 任務難點、以及訊飛的 NLP 方向進展展開話題。以下為采訪實錄。
機器之心:能請您介紹一下 KBP 這個任務的情況嗎?
劉丹:本次我們參加的是 KBP 國際公開評測任務,比賽由 NIST 資助,從 2009 年起舉辦至今。
KBP(Knowledge base population)任務的主要目标是知識庫擴充和填充,研究的主要内容是傳統的結構化知識庫如 Freebase,目前它的建構絕大多數都要依靠人的編輯工作。知識庫中描述的資訊是實體世界的命名實體和實體之間關系的抽取,如「克林頓和希拉裡之間是夫妻關系」、「克林頓畢業于耶魯法學院」這樣一個個實體的關系。但人工編輯有兩個問題,一是工作量較大,再就是可能出現錯誤和時效性的問題。

KBP 任務架構,資料來自科大訊飛
很久以來大家都在思考,人可以通過閱讀新聞和書本這樣的文本語料獲得相關知識,機器可不可以?KBP 公開任務的研究目标,是讓機器可以自動從自然書寫的非結構化文本中抽取實體,以及實體之間的關系。我們今年參加的 EDL(Entity Discovery and Linking)命名實體的發現和連接配接任務所做的事情,是從自然語言的文本中抽取命名實體,标注它們的類型及實體與已有知識庫之間的對應關系。從 2015 年開始,這個任務采用了中文、英文、西班牙文三個語種,需要找到三個語種的文本語料中的實體,并連接配接在一起。中文的「克林頓」要與英文的「Clinton」、西班牙文的「Clinton」連接配接到 Freebase 的同一個實體上。
機器之心:參賽方都有哪些公司、學校或者企業?
劉丹:學校居多,也有一些公司的研究機構。今年的 KBP 比賽 EDL 任務中,參加的學校有卡耐基梅隆、UIUC、倫斯勒理工,還有很多其他的學校。以企業名義參加的有 IBM,國内的機構有國防科技大、北京郵電大學和浙江大學。
機器之心:訊飛在 KBP 任務的多個名額中獲得了第一,這些名額指哪些?
劉丹:命名實體連接配接這個項目分為很多子項目,一個是将三個語種放在一同統計,需要将不同語言的相同實體連接配接在一起;一個是将三個語種各自統計的名額,統計名額包括命名實體發現的正确率和命名實體連接配接的正确率。最終我們在整個比賽任務中的絕大多數名額都是第一,其中三個語種總體的名額是最高的,與其他參賽系統相比有比較顯著的優勢。單獨的三個語種名額中,命名實體發現的部分都是第一。連接配接這部分中文我們是最高的,英文和西班牙文是第二。
機器之心:命名實體發現和命名實體連接配接發現的難點在哪裡?
劉丹:命名實體發現中部分是 NLP 傳統的命名實體标注任務,但 KBP 任務同其有兩個差別:
一個是傳統命名實體标注不允許有嵌套關系,如提到「中國科學技術大學」時,「中國科學技術大學」就是一個命名實體;KBP 則需要在文本中抽取更多細節的關系,不僅要将「中國科學技術大學」的「中科大」标注出來,同時「中國」也要标注出來,命名實體有一定的嵌套關系。除此之外,名詞性的實體如「中國科大」、「科大訊飛」、「機器之心」都是一個個獨立的名字(專有名詞),這樣的名字更容易标注;名詞性的普通名詞短語如「中國人」、「美國人」、「中國的公司」,這樣的名詞性實體需要與一般的名詞短語區分開。
另外 KBP 任務需要标注的是有意義的名詞性實體,如「XX 作為一個中國人」,這裡的「中國人」是有明确指代的,是以需要标注;泛指性的如「中國人可以發怒了」,這裡的「中國人」是不允許标注的。
KPB 任務更符合人對于事物類别的區分判斷,有的内容是無法從語言文法的角度區分的,這讓命名實體發現具有了比較大的難度。
命名實體連接配接發現最關鍵的部分是消歧的問題,普通的文本大多數時候不會提全名,如科大訊飛大家不會說「科大訊飛股份有限公司」,而會說「訊飛」。因為人們會使用縮寫、昵稱、綽号以及上下文指代的内容,使得命名實體連接配接時的消歧會非常難做。
還有一個比較有意思的事情是,去年 KBP 比賽時傑布•布什正在競選美國總統,新聞中會出現很多「布什一家」,其中以傑布•布什居多。但是因為訓練語料中老布什和小布什出現的頻率更高,是以在去年的比賽中,大多數參與的系統都會将傑布•布什連接配接到喬治•布什上。
另外,在語料中的昵稱縮寫也很容易連接配接錯誤,或錯标為非實體。除了這些,偏談論性的語調中會出現「希拉裡這個女人……」。這裡的「這個女人」在實體發現中被标為實體會很難;其次把「這個女人」連接配接到希拉裡是另外一個比較有難度的事情。
機器之心:這個任務更偏向于 NLP 中的語義了解方向嗎?
劉丹:應該算語義了解。與之相似的是最近幾年發展的「抽象語義表示」,希望将文本中的句子抽象出和語言無關的實體,以及實體關系、動作之間的圖像表示。
機器之心:KBP 任務的評判标準是什麼?
劉丹:評判标準是正确率與召回率兩者兼顧的,采用的是 NLP 中常用的 f-score。
如果語料中出現了一百個實體,系統标出了 105 個,其中 80 個是正确的實體,另外 25 個是系統錯标的,正确率就是标出的正确實體數除以系統标出數(80/105=0.7619);一共有 100 個實體,召回了 80 個,召回率就是召回數比總數(80/100=0.8)。
如果正确率和召回率隻考慮一部分,往往可以做到很高,比如系統盡可能隻找絕對有把握的(名詞實體),或者文本中出現了 100 個實體,隻找到 1 個實體并且是正确的,那麼正确率總是 100%。
機器之心:因為 KBP 任務包含中文、英文、西班牙文,那麼多語言之間連接配接部分的難點在那裡?
劉丹:如果按照傳統 NLP 做法,會根據每個語言精細定義比較複雜的規則,系統的調節也會傾向于抽取非常大的規模特征。做傳統 NLP 中國人做中文是最好的,英文還能做得來,但是西班牙文是沒辦法做的。
我們在解決 KBP 任務是采用的是基于深度學習架構下發展的技術,特點是用比較複雜的神經網絡和端到端的學習,盡可能多的靠資料驅動并盡量減少人工定義的規則和特征。我們參加本次比賽的模型結構很有自己的特色,在三個語種中使用的是同一個系統,取得的結果都不錯。
雖然西班牙文我們完全看不懂,但在西班牙文命名實體發現的部分,最終結果是我們做得最好,領先第二名不少。命名實體連接配接部分我們是第二,比第一差了 1.9 分(訊飛成績為 63.5,最優為 65.4)。
KBP 任務可送出參賽系統可送出兩次,該圖表為第一次送出時的名額結果。其中,1 号系統為訊飛與 USTC 實驗室聯合送出的系統。
該圖表為第二次送出的名額結果。其中,2 号系統為訊飛與約克大學聯合實驗室共同送出的系統。兩個系統共同囊括了 EDL 任務的冠亞軍。
機器之心:西班牙語比較難做的原因是因為訓練語料較少嗎?
劉丹:有兩方面原因。一個是傳統 NLP 依賴的規則資源在西班牙語方面比較少,我們中文做的比較多,至少對于人名判斷有姓氏清單,中國所有的省份也有清單,想去做規則總是做得出來。西班牙文的類似清單做得少,相關資源也很少。
另外研究者不是母語使用者(Native Speaker),想要進一步調試系統都沒有辦法。
機器之心:比賽使用的輸入語料是随機語料嗎?
劉丹:是官方提供的。今年比賽和此前相比還有一點不同,前面幾年的語料非常少,每個語種隻有 500 篇。今年規則改為一共提供 90003 篇,每個語種平均 30001 篇。需要将 90003 篇中的實體都找出,并連接配接起來。
機器之心:我們在比賽中主要用到的技術有哪些?
劉丹:主要還是深度學習。訊飛在基于深度學習解決 NLP 問題方面已經做了很多年,在深度學習火起來但在 NLP 沒有做出太多成果時,我們就已經有了思考和嘗試。差不多在兩年前,與我們合作的加拿大約克大學江輝教授提出基于神經網絡的閱讀機器(Neural Reading Machine)。對于閱讀機器(Reading Machine)來說,先是将自然語言文本當作一個時序的單詞序列,針對時序序列考慮各種模組化方式,包括傳統的卷積網絡、循環神經網絡,以及江輝教授提出的一種名為 FOFE 的特殊網絡結構。這次比賽我們在這些基礎上,用了最近兩年比較流行的注意力模型(Attention)來做。
約克大學·訊飛聯合實驗室成立于 2015 年,專注神經計算與深度學習,圖為實驗室成立合影
機器之心:那麼這些技術已經應用到我們的産品中了嗎?
劉丹:應該說 KBP 的最終目标是知識圖譜的擴充,知識圖譜對于目前的訊飛來說并沒有太多用處。
但其技術有非常大應用。首先是基于神經網絡端到端的學習方案,在類似的 NLP 問題上都能發揮作用。例如我們在教育方面的自動閱卷、書面作文和口頭作文的評分批改、試卷難度預測,我們用了各種各樣的技術,但網絡結構的總體思想是類似、相關的。大體上是将時序的文本序列進行某種基于神經網絡獲得的抽象表示,在這種抽象表示上面定義結構,來描述所要抽取的結構資訊。
雖然說我們不做知識圖譜,但 KBP 的研究是要在知識圖譜上找到命名實體的對應連接配接,這一點對于訊飛的核心業務語音對話系統是非常重要的。
目前所有的對話系統都是功能引導式的對話,比如讓語音助手訂票、查餐館之類。在業務範圍外的百科知識和與使用者閑聊的時候,往往隻能利用人工規則和補資源的方式兜底,比如問對話系統「姚明身高有多少」、「奧巴馬的妻子是誰」,多數情況下都表現不佳。基于剛才提到的命名實體抽取連接配接的相關技術,我們可以對于問題進行簡單分析,将問題與維基百科、Freebase 知識庫連接配接起來,從結構化的知識庫中找到對應的答案,這是相對直接的應用。
機器之心:除此之外,在 NLP 方面訊飛還有哪些成果?
劉丹:首先是 NLP 中非常重大的部分——機器翻譯,我們目前在機器翻譯方面做得還不錯,2014 年獲得國際評測任務 IWSLT 的第一名,IWSLT 的特點是口語化演講。去年 NIST 組織的 OpenMT(Open Machine Translation Evaluation)比賽,我們同樣獲得了第一名。目前我們在中-英語互譯、中-維吾爾語互譯、中-藏語互譯做的還不錯。
機器翻譯之外,訊飛在教育方面做的比較多。我本人 4 年前一直在做教育相關的業務,包括給定主題自由表述的口語開放題型、自由書面作文的評分和批改。它們不僅牽扯到語音識别、手寫識别技術,在識别正确的基礎上,要在偏口語、噪音幹擾的情況下,将整個考生的表述脈絡理清,找出其中的病句、搭配不當。對中文作文的評分要難一些,因為中國人基本不會有文法錯誤,要給出前後語義搭配的連貫性等方面的評價和修改建議。
機器之心:在您看來,NLP 的下一步發展需要解決哪些問題?
劉丹:目前來看大家研究的比較多的是語義了解。最近一兩年 Google、Facebook,當然我們也做了一些閱讀了解的問題。還有文本産生,就是讓機器自己去寫東西。目前在文本産生這部分,機器能産生文法沒有錯誤、比較順滑的句子,但産生出的段落看上去沒有什麼意義。機器能夠産生文本,但沒做到「創造」。這方面 Google 也做了 DeepArtist,面臨的也是同樣的問題。
更偏實用的是雖然對話系統大家都在做、能做到「可用」,但和真人還是有顯著差距,包括我們的語音助手和友商的産品都是這樣。
從技術上看,目前我認為值得深入的是兩部分:一個是無監督學習,自然語言有大規模的無标注資料,但針對任務的标注如對話系統的資料是非常有限的。怎樣做到使用無監督資料和少量有監督資料将問題做到大規模标注資料效果,是目前我們比較感興趣的内容。
另外從神經科學角度看,還有對人記憶的仿生。目前的神經網絡,包括号稱有記憶的循環神經網絡,所描述的記憶還是短時記憶,隻能了解人說的一句話的内容。人的智慧随着年齡不斷增長,核心在于人的記憶。隻有人有記憶,在看到新事物的時候,才能通過喚醒記憶的方式找到類似的解決方案和創新。
記憶機制在機器學習尤其是自然語言領域都是近兩年大家非常關注的課題,Google、Facebook 都做了非常不錯的工作,Google 也在前兩個月發了一篇可微分的神經計算機,記憶機制會是後續比較重要的東西。
©本文為機器之心原創文章,轉載請聯系本公衆号獲得授權。