天天看點

Facebook開源問答系統DrQA:基于單一信源回答開放域提問論文摘要開源代碼

本文來自AI新媒體量子位(QbitAI)

今天一大早,Yann LeCun就轉發了一條消息:Facebook開源了DrQA的代碼。

DrQA是一個開放域問答系統。

關于DrQA,Facebook還發表了一篇論文《Reading Wikipedia to Answer Open-Domain Questions(閱讀維基百科來回答開放域問題)》。這篇論文也入選了下周即将在溫哥華召開的ACL 2017大會。

論文的作者為來自斯坦福的Danqi Chen(陳丹琦,之前畢業于清華姚班),以及來自Facebook人工智能實驗室(FAIR)的Adam Fisch,Jason Weston,Antoine Bordes。

Adam Fisch介紹說,DrQA的主要任務是大規模機器閱讀(MRS)。在這種情況下,DrQA會在一個非常龐大的非結構化文檔語料庫中尋找問題的答案。是以,這個系統最大的挑戰就是文檔檢索與文本的機器了解如何更好的結合。

Facebook開源問答系統DrQA:基于單一信源回答開放域提問論文摘要開源代碼

△ DrQA系統架構

這篇論文提出使用維基百科作為唯一的知識來源,以解決開放域問答。任何事實性提問的答案,都是來自維基百科中的内容。

我們的方法結合了基于二進制文法哈希(bigram hashing)和TF-IDF比對的搜尋元件,以及一個訓練用來在維基百科段落中尋找答案的RNN模型。

我們在多個現有問答資料庫上的實驗表明:1、上述兩個子產品與現有方案相比優勢很大 2、使用遠監督的多任務學習,可以讓上述組合更高效的完成任務。

為了回答任何問題,DrQA必須首先檢索超過500萬個條目中的相關文章,然後仔細掃描以确定答案。我們把這個成為大規模機器閱讀(MRS)。

我們的工作将維基百科視為文章的集合,而不依賴于其内部圖形結構。是以,這個通用方法可以切換到其他檔案、書籍或是日報等領域。

像IBM DeepQA這樣的大規模問答系統,依賴于多個來源給出答案:除了維基百科,DeepQA還是用了知識庫、詞典、新聞、書籍等。是以這樣的系統嚴重依賴資訊備援來獲得正确答案。

而隻有單一知識來源,迫使模型在搜尋答案時必須非常精确,因為相關證據可能隻會出現一次。是以,這對機器閱讀能力是一個挑戰。

擷取論文,可以在量子位微信公衆号(QbitAI)對話界面回複:“drqa”四個字母。

Facebook已經把DrQA問答系統的PyTorch實作公布在GitHub上。位址在此:

https://github.com/facebookresearch/DrQA

在這個頁面上,Facebook還展示了一下DrQA的問答界面,我們挑選幾個給大家看看。首先是這個問題:“生命、宇宙和一切的答案是什麼?”

Facebook開源問答系統DrQA:基于單一信源回答開放域提問論文摘要開源代碼

安裝DrQA需要Python 3.5或以上,當然也需要安裝PyTorch。更多細節都在requirements.txt中。

另外,Facebook還提供了預訓練的模型,以及維基百科問答資料。這部分内容大小為7.5GB,解壓之後約為25GB大小。

【完】

本文作者:問耕 

原文釋出時間:2017-07-27

繼續閱讀