中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

KB-QA中的難點之一是“歧義”問題，不同于傳統的語義解析的方法，我們設計實作了一個新穎的面向知識圖譜的問答系統gAnswer[8]。一方面，我們提出一種新的邏輯形式語義查詢圖，使用資料驅動的方式解決實體和關系的歧義，将消歧操作後推到查詢執行階段，進而提高識别精度。此方法的核心是将自然語言問題轉化一個語義查詢圖QS，回答自然語言問題就是找到語義查詢圖Q在知識圖譜RDF圖G中的比對。所謂“歧義後推”的方法是指，在産生語義查詢圖Q時我們并不做消歧的工作。如圖5中短語Paul Anderson可能對應Paul S. Anderson、Paul W. S. Anderson等實體，在語義解析産生查詢圖QS階段保留這些歧義,即允許問題中的“Paul Anderson”對應多個候選的實體；當進行查詢圖比對時，我們發現不能找到包含Paul S. Anderson在内的比對子圖，則可以自然地抛棄這一候選實體，進而消除歧義。需要強調的一點是，我們提出了不依賴模闆的語義組合方法，能夠處理包括隐式關系在内的複雜問題，同時具備很好的魯棒性和可擴充性。

GAnswer首先對問題進行語義解析，建構語義查詢圖。第一步是節點識别。對于自然語言問題N={w1,w2,...,wn}，其中wi是N中第i個單詞、wij是N中的一個短語。節點識别的目标是在N中抽取若幹wij并産生wij的候選實體/概念清單。根據各節點對應的元素類别，還需要對其進行标注，圖6是節點識别的樣例。不同于傳統方法隻識别實體等常量，我們還識别變量并進行共指消解，提高了問題了解能力。

在得到節點集合後，我們需要知曉哪些節點之間有關系，需要進行連邊。給出兩個節點u和v，可以調用關系抽取模型判定它們之間有沒有關系，并找到候選謂詞清單。關系抽取模型有兩部分，第一部分利用u和v在文法依存樹(dependency parse tree) Y上的最短路徑同關系短語複述詞典進行比對；第二部分是隐式關系推測，是直接将u和v映射到知識庫中，并進行路徑挖掘，得到最可能的候選謂詞集合。有了關系抽取模型，最樸素的想法是對任意兩個節點u和v，判斷它們之間是否有關系，但這樣做的時間複雜度較高。

為了提高效率，我們提出了一個基本假設：對于兩個節點u和v，它們之間存在關系當且僅當u和v在Y上的最短路徑P(u, v)中不存在第三個節點w。這是由于如果u和v之間存在節點w，那麼u和w之間應該比u和v更親密，那麼u應該和w連邊而不是v。經過實驗證明，該假設在絕大多數情況下是正确的，少數錯誤的情況是由于關系依存樹Y本身的錯誤。

在通過上述假設确定哪些節點之間有關系之後，就得到了語義查詢圖的基本結構。再對每一對u和v調用關系抽取子產品和實體識别子產品，即得到完整的語義查詢圖。傳統方法在生成邏輯形式時已經進行語義消歧，為此花費額外的算法開銷并可能丢失正确解。而我們在建構語義查詢圖時保留歧義，并在查詢階段根據資料比對的情況進行消歧。另一方面，由于文法依存樹Y本身可能存在錯誤，是以語義查詢圖也可能存在某些錯誤邊，例如圖7中v3和v4之間的邊即是不應該存在的。這些錯誤邊在對語義查詢圖進行查詢時也會被消除掉。

若我們在語義查詢圖QS各邊/點的候選關系/實體清單中選擇一個确定的關系/實體替代原來各邊/點的标簽，則QS轉化為标準的查詢圖Q，即可使用現有的子圖比對算法進行查詢。與資訊檢索式方法類似，我們定義了比對的得分并傳回得分最高的k個比對作為最終結果。

為了提高效率，一方面将子圖比對算法進行擴充，使之支援對多标簽的查詢圖進行子圖比對。基于圖周遊算法，我們将實體節點對應的各實體作為它的候選，類似于原算法中的變量；将各邊作為原算法中的節點看待，為它們建立候選清單。同時，建立代價模型(cost model)來評估各周遊順序的花銷，找到預估代價最小的方案來執行算法。

另一方面，由于QS可能存在錯誤邊，正确的語義查詢圖QC是QS的一個生成子圖。鑒于枚舉所有生成子圖再進行比對的開銷十分巨大，我們設計了自底向上的貪心算法。初始從一個節點出發，每一步優先選擇置信度更高的邊加入查詢圖，并不斷進行比對來確定目前的查詢圖可以找到解。當比對失敗的時候标記錯誤邊并通過回溯選擇其他邊，最終将找到的比對排序并傳回得分最高的k個比對。

QALD(Question Answering over Linked Data)[20]是一系列開放領域問答比賽，從2011年開始至今已舉辦七屆。我們的系統參加了QALD-6的評測(QALD-6是ESWC 2016會議舉辦的評測任務之一)，如表1所示，以0.86的F-1值排名第二[20]。排名第一的系統CANaLI[21]并不是全自動的自然語言問答系統，它需要人工指定各短語所對應的實體和謂詞，相當于要求使用者自行解決消歧問題，并不适合直接與其他自動問答系統進行比較。KWGAnswer是我們開發的關鍵詞問答系統，其表現也強于大部分自然語言問答系統。

中國人工智能學會通訊——面向知識圖譜的自然語言問答系統 3 GAnswer 系統

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希