自然語言處理曾被認為是人工智能皇冠上的璀璨明珠,現如今再随着圖像識别等技術的長足進步,這顆明珠似乎也顯得有些暗淡無光了。
但是,一篇來自阿裡巴巴研究團隊送出到EMNLP 2019的關于自然語言生成文章,似乎為自然語言處理領域重制昔日榮光找到方向。
對于技術發展緩慢的解釋,衆說紛纭。我們都希望通過自然語言了解技術使機器像人一樣,具備正常人的語言了解能力,可不管期望多美好,似乎目前的現實是,包括自然語言生成在内的自然語言處理領域陷入了發展的困境。

那麼,這篇來自阿裡巴巴的論文究竟有什麼樣的力量,讓整個研究領域看到希望?
在這之前我們來回憶一個流傳較廣的小故事:
日本最大的化妝品公司收到客戶抱怨,客戶說他們買來的洗面皂盒子裡面是空的,化妝品公司為了預防生産線再次發生這樣的事情,于是便請工程師很努力辛苦的研發了一台“X-光螢幕”去透視每一台出貨的香皂盒,當然漏裝的盒子都可被檢查出來。而同樣的問題也發生在另一家小公司,他們的解決方法是買一台強力工業用電扇,放在輸送機末端,去吹每個香皂盒,被吹走的便是沒放香皂的空盒。
我們經常用這樣的小故事來告誡自己,面對一個既定想要實作的目标,當利用現有的方式方法很難再獲得較大進步時,或者想要繼續取得進步需要付出非常大代價時,适當的轉變思考或者解決問題的角度,往往會有柳暗花明的情形出現。
回歸正題,上面的小故事與阿裡研究團隊該次發表的論文相似的地方在于解決問題的思路非常相似。
在這篇論文中,阿裡研究人員解釋到,與現有的有關知識感覺QA的工作不同,阿裡研究團隊未沿着目前的研究思路繼續前進,而是将重點放在更具挑戰性的任務上,即利用外部知識針對上下文的給定問題生成自然的答案。
相對于其他的神經模型,阿裡巴巴研究團隊提出的的新的神經體系結構,專門設計用于通過整合外部知識來生成更加豐富也更加貼近實際生活的自然語言答案。
阿裡團隊的方案
為何需要補充外部知識
在機器了解任務中,我們要根據給定的段落回答問題,答案通常是段落的一部分。但是由于缺乏常識和背景知識,機器可能無法了解某些聯系或無法回答某些問題,例如:
提問:巴拉克·奧巴馬(Barack Obama)出生于美國嗎?
回答:星期一的夏威夷州政府說,他們再次檢查并确認巴拉克·奧巴馬總統出生在夏威夷。
在回答這個問題時,人們除了必要的資訊,還必須知道夏威夷是美國的一個州。可是對于機器來說,這就是文本語料庫中沒有的外部知識。是以,要想回答許多類似這樣的平凡的問題,需要為QA模型适當地補充外部知識。
補充的外部知識從何而來
阿裡研究團隊稱新的神經模型為知識豐富的答案生成器,簡稱KEAG,它能夠利用知識庫中的符号知識來生成答案中的每個單詞。特别是,研究人員假設每個單詞都是從以下四個資訊源中的一個生成的:1、問題,2、段落,3、詞彙和4、知識。
如何從來源中選取需要的知識
為了實作這個目标,研究人員引入了“源選擇器”,它是KEAG中的一個定點元件,允許靈活地決定尋找哪個源來生成每個答案詞。在阿裡研究團隊看來,“源選擇器”實作的功能是至關重要的。雖然外部的知識的确在答案的某些部分中起着重要作用,但是在答案的其餘部分,給定的文本資訊還是應該優先外部知識進行考慮。
KEAG架構
首先,介紹一下KEAG架構。
問題和段落經過擴充後,将結果輸入到源選擇器中以生成自然的答案。
△ KEAG架構
一切從源選擇器的每次疊代開始,在生成答案的過程中,每次疊代,KEAG都從運作源選擇器開始,從問題,段落,詞彙和知識其中一個源中選擇一個單詞。
△ 說明了源選擇器在解碼過程中如何在一個完整疊代中工作
在疊代之後,如何将選擇的各種知識進行整合成為關鍵一環,在這一部分,主要涉及兩個重要操作,即針對一個給定的問題從知識庫中提取相關事實,然後從中選擇可以用于答案組合的最相關事實。
△ 相關事實提取與事實選擇
實作上述功能的原理如上圖所示,顯示了如何從一組相關事實中選擇一個事實以完成答案。
KEAG實戰表現如何
鑒于研究團隊的目标是通過文檔閱讀生成自然的答案,是以,Microsoft釋出的MARCO資料集(Nguyen等,2016)是基準測試KEAG和其他答案生成方法的最佳選擇。
研究人員使用最新的MARCO V2.1資料集,并專注于評估中的“ Q&A +自然語言生成”任務,這個任務的目标是提供最佳的可以被智能裝置/數字助理使用的自然語言答案。
鑒于MARCO測試集中沒有真正的答案,是以在實驗中采用擁有12467個QA對的開發集進行評估。評估工具使用的名額沿用MARCO官方使用的BLEU-1和ROUGE-L,以期達到根據基本事實評估生成的答案的品質的目的。
而外部知識的來源庫,研究團隊使用的是ConceptNet,ConceptNet是一個語義網絡,表示單詞和短語以及它們之間的常識關系。這是使用最廣泛的常識知識庫之一。在過濾掉很少事實的非英語實體和關系類型之後,仍然有2,823,089個事實三元組和32個關系類型供模型使用。
在此需要強調的一點是:KEAG具有通用性,是以也可以應用于其他知識庫。
在教育訓練和測試階段,研究人員将一段文字截斷為800個單詞,并将答案的長度限制為120個單詞。利用16個Tesla M40 GPU進行訓練。在測試時,使用大小為4搜尋生成答案。
在上文前提下,獲得了KEAG與其他模型比較的結果:
從圖中我們可以看到,在回答品質方面,抽象的QA模型(例如KEAG)始終優于提取類模型(例如BiDAF)。
是以,抽象的QA模型建立了強大的基礎架構,可以通過外部知識加以增強,進而加強了這項工作。在抽象模型中,gQA可以看作是KEAG的簡化形式,它無需使用知識即可從段落和詞彙中生成答案詞。
另外,KEAG包含了随機源選擇器,而gQA沒有。KEAG明顯優于gQA的結果證明了KEAG架構的有效性和知識整合的好處。
下圖顯示了KEAG的名額與同樣利用了知識的最新QA模型的名額比較結果:
從圖中可以清楚地看到,在知識豐富的答案生成模型中,KEAG的Rouge-L和Bleu-1得分最高,表現最佳。這主要得益于KEAG與其他模型之間不同的将外部知識納入模型的方式。KEAG利用兩個随機選擇器來确定何時利用知識以及使用哪個事實。這在利用外部知識生成抽象答案方面帶來了更多優勢。
由于Rouge-L和Bleu-1都無法根據其正确性和準确性來衡量所生成答案的品質,是以我們還對Amazon Mechanica Turk進行了人工評估。主要評估答案在文法和正确性方面的品質。
上圖報告了KEAG的人類評估得分情況,從得分比較來看,KEAG模型在文法上和實質上産生正确的答案方面優于其他所有模型。這證明了其在利用外部知識方面的能力。
接下來的是關于消融研究,進行消融研究目的是評估KEAG中每個元件的單獨貢獻。
上圖是完整KEAG模型及其消融的性能。我們通過從KEAG的架構中删除補充知識和相應的事實選擇子產品,評估将外部知識作為補充資訊納入到自然答案生成中的貢獻。
可以看出,知識部分在生成高品質答案中起着重要作用,在删除補充知識後,Rouge-L降至49.98。最後在檢測源選擇器的能力時,删除了源選擇器的新模型Rouge-L下降明顯直至38.33,進而确認了其在生成自然答案中的有效性。
執行個體介紹
最後,通過研究團隊提供的一個例子,來檢測整體新的神經模型效用如何,該圖可視化了答案中各個單詞的來源,可将其分為兩部分檢視。
第一部分帶有源機率的答案部分,分别顯示針對從問題,段落,詞彙和知識中選擇的答案詞的熱圖。具有較高源機率的答案組成部分以深青色突出顯示。
第二部分是“按來源塗色的答案”,其中每個單詞都根據實際選擇的來源塗上顔色。藍色的單詞來自問題,紅色來自段落,綠色來自詞彙,橙色來自知識。
未來可期
看到這裡大家是不是同樣也有一些小小的激動呢?
雖然該研究仍然處于起步階段,但是,正如研究團隊在報告中提到的,“這項工作為以有針對性的方式更深入地研究答案生成模型打開了大門”。新的天地已然通過打開的“大門”向所有人展示了它所蘊藏的巨大的價值。
傳送門
Incorporating External Knowledge into Machine Reading for Generative Question Answering
Bin Bi, Chen Wu, Ming Yan, Wei Wang, Jiangnan Xia, Chenliang Li
https://arxiv.org/pdf/1909.02745.pdf原文釋出時間:2019-12-04
本文作者:宋恒宇
本文來自雲栖社群合作夥伴“
量子位”,了解相關資訊可以關注“
”