天天看點

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

KB-QA中的難點之一是“歧義”問題,不同于傳統的語義解析的方法,我們設計實作了一個新穎的面向知識圖譜的問答系統gAnswer[8]。一方面,我們提出一種新的邏輯形式語義查詢圖,使用資料驅動的方式解決實體和關系的歧義,将消歧操作後推到查詢執行階段,進而提高識别精度。此方法的核心是将自然語言問題轉化一個語義查詢圖QS,回答自然語言問題就是找到語義查詢圖Q在知識圖譜RDF圖G中的比對。所謂“歧義後推”的方法是指,在産生語義查詢圖Q時我們并不做消歧的工作。如圖5中短語Paul Anderson可能對應Paul S. Anderson、Paul W. S. Anderson等實體,在語義解析産生查詢圖QS階段保留這些歧義,即允許問題中的“Paul Anderson”對應多個候選的實體;當進行查詢圖比對時,我們發現不能找到包含Paul S. Anderson在内的比對子圖,則可以自然地抛棄這一候選實體,進而消除歧義。需要強調的一點是,我們提出了不依賴模闆的語義組合方法,能夠處理包括隐式關系在内的複雜問題,同時具備很好的魯棒性和可擴充性。

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

GAnswer首先對問題進行語義解析,建構語義查詢圖。第一步是節點識别。對于自然語言問題N={w1,w2,...,wn},其中wi是N中第i個單詞、wij是N中的一個短語。節點識别的目标是在N中抽取若幹wij并産生wij的候選實體/概念清單。根據各節點對應的元素類别,還需要對其進行标注,圖6是節點識别的樣例。不同于傳統方法隻識别實體等常量,我們還識别變量并進行共指消解,提高了問題了解能力。

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

在得到節點集合後,我們需要知曉哪些節點之間有關系,需要進行連邊。給出兩個節點u和v,可以調用關系抽取模型判定它們之間有沒有關系,并找到候選謂詞清單。關系抽取模型有兩部分,第一部分利用u和v在文法依存樹(dependency parse tree) Y上的最短路徑同關系短語複述詞典進行比對;第二部分是隐式關系推測,是直接将u和v映射到知識庫中,并進行路徑挖掘,得到最可能的候選謂詞集合。有了關系抽取模型,最樸素的想法是對任意兩個節點u和v,判斷它們之間是否有關系,但這樣做的時間複雜度較高。

為了提高效率,我們提出了一個基本假設:對于兩個節點u和v,它們之間存在關系當且僅當u和v在Y上的最短路徑P(u, v)中不存在第三個節點w。這是由于如果u和v之間存在節點w,那麼u和w之間應該比u和v更親密,那麼u應該和w連邊而不是v。經過實驗證明,該假設在絕大多數情況下是正确的,少數錯誤的情況是由于關系依存樹Y本身的錯誤。

在通過上述假設确定哪些節點之間有關系之後,就得到了語義查詢圖的基本結構。再對每一對u和v調用關系抽取子產品和實體識别子產品,即得到完整的語義查詢圖。傳統方法在生成邏輯形式時已經進行語義消歧,為此花費額外的算法開銷并可能丢失正确解。而我們在建構語義查詢圖時保留歧義,并在查詢階段根據資料比對的情況進行消歧。另一方面,由于文法依存樹Y本身可能存在錯誤,是以語義查詢圖也可能存在某些錯誤邊,例如圖7中v3和v4之間的邊即是不應該存在的。這些錯誤邊在對語義查詢圖進行查詢時也會被消除掉。

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

若我們在語義查詢圖QS各邊/點的候選關系/實體清單中選擇一個确定的關系/實體替代原來各邊/點的标簽,則QS轉化為标準的查詢圖Q,即可使用現有的子圖比對算法進行查詢。與資訊檢索式方法類似,我們定義了比對的得分并傳回得分最高的k個比對作為最終結果。

為了提高效率,一方面将子圖比對算法進行擴充,使之支援對多标簽的查詢圖進行子圖比對。基于圖周遊算法,我們将實體節點對應的各實體作為它的候選,類似于原算法中的變量;将各邊作為原算法中的節點看待,為它們建立候選清單。同時,建立代價模型(cost model)來評估各周遊順序的花銷,找到預估代價最小的方案來執行算法。

另一方面,由于QS可能存在錯誤邊,正确的語義查詢圖QC是QS的一個生成子圖。鑒于枚舉所有生成子圖再進行比對的開銷十分巨大,我們設計了自底向上的貪心算法。初始從一個節點出發,每一步優先選擇置信度更高的邊加入查詢圖,并不斷進行比對來確定目前的查詢圖可以找到解。當比對失敗的時候标記錯誤邊并通過回溯選擇其他邊,最終将找到的比對排序并傳回得分最高的k個比對。

QALD(Question Answering over Linked Data)[20]是一系列開放領域問答比賽,從2011年開始至今已舉辦七屆。我們的系統參加了QALD-6的評測(QALD-6是ESWC 2016會議舉辦的評測任務之一),如 表1所示,以0.86的F-1值排名第二[20]。排名第一的系統CANaLI[21]并不是全自動的自然語言問答系統,它需要人工指定各短語所對應的實體和謂詞,相當于要求使用者自行解決消歧問題,并不适合直接與其他自動問答系統進行比較。KWGAnswer是我們開發的關鍵詞問答系統,其表現也強于大部分自然語言問答系統。

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統
中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

繼續閱讀