天天看點

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

在本篇提前看中,我們重點聚焦 AAAI 2020 中與問答系統(Q&A)相關的文章。問答系統是自然語言處理領域的一個重要研究方向,近年來各大國際會議、期刊都發表了大量與問答系統相關的研究成果,實際工業界中也有不少落地的應用場景,核心算法涉及機器學習、深度學習等知識。問答系統(Q&A)的主要研究點包括模型建構、對問題/答案編碼、引入語義特征、引入強化學習、内容選擇、問題類型模組化、引入上下文資訊以及實際應用場景問題解決等。在本次 AAAI2020 中,直接以「Question/Answer」作為題目的論文就有 40 餘篇。本文選取了其中三篇進行詳細讨論,内容涉及語義特征比對、模型建構和醫學場景應用等。

1、Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring

論文位址:

https://arxiv.org/pdf/1912.00879.pdf
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

本文介紹的是佛羅裡達大學吳大鵬教授組的工作,主要聚焦問答系統(Q&A)的反問題---問題生成(Question Generation,Q&G)。問題生成的目的是在給定上下文和相應答案的情況下生成語義相關的問題,問題生成在教育場景、對話系統、問答助手等應用領域具有巨大的潛力。問題生成任務可分為兩類:一類是基于規則的方法,即在不深入了解上下文語義的情況下手動設計詞彙規則或模闆,将上下文轉換成問題。另一類是基于神經網絡的、直接從語句片段中生成問題詞彙的方法,包括序列-序列模型(seq-to-seq)、編碼器解碼器(encoder-decoder)等。本文讨論的是後一種基于神經網絡的問題生成方法。

目前,基于神經網絡的問題生成模型主要面臨以下兩個問題:(1)錯誤的關鍵詞和疑問詞:模型可能會使用錯誤的關鍵詞和疑問詞來提問(見表 1);(2)糟糕的複制機制:模型複制與答案語義無關的上下文單詞(見表 2)。表 1 和表 2 中使用的基線算法為 NQG++[1] 和 Pointer-generator[2]。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
表 1. 關鍵詞和疑問詞錯誤的基線實驗
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 2. 複制機制錯誤的基線實驗

作者認為,現有的基于神經網絡的問題生成模型之是以出現上述兩個問題是因為:(1)解碼器在生成過程中可能隻關注局部詞語義而忽略全局問題語義;(2)複制機制沒有很好地利用答案位置感覺特征,導緻從輸入中複制與答案無關的上下文單詞。為了解決這兩個問題,作者提出以多任務學習(Multi-Task Learning,MTL)的方式學習句子級語義,以及引入答案位置感覺,如表 1 和表 2 所示,「Our model」為本文提出模型在相同實驗條件下生成的問題。圖 1 給出本文提出的具有句子級語義比對、答案位置推斷和門控融合的神經問題生成模型圖。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 1. 本文提出的模型圖

給定包含答案 A 的語句 X=[x1,x2,...,xm],基于連續擴充的語句,生成與 X 和 A 語義比對的問題 Y。與文獻 [1] 的方法一緻,利用擴充的語義和詞彙特征、部分語音标簽、答案位置特征等作為 seq-to-seq 模型嵌入層的輸入,利用雙向 LSTM 作為編碼器,通過連結前向隐藏狀态和後向隐藏狀态生成句子表示 H=[h1,h2,...,hm]:

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
答案感覺門控融合(Answer-aware Gated Fusion):使用兩個由 Sigmoid 函數計算的資訊流門來控制句子向量和答案向量的資訊流,将答案起始位置的隐藏狀态作為答案向量 h_a,使用雙向 LSTM 編碼整個答案語義。
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
解碼器(Decoder):以編碼器的隐藏狀态 H=[h1,h2,…,hm] 作為上下文和改進的答案感覺句子向量 z 作為初始隐藏狀态 s1,一層單向 LSTM 用先前解碼的單詞作為輸入 wt 更新其目前隐藏狀态 st。
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
利用注意力機制将目前解碼器狀态 s_t 賦給編碼器上下文 H=[h1,h2,…,hm]。使用歸一化處理後的注意向量α_t 的權重求和結果計算上下文向量 c_t。基于詞典 V,計算問題單詞 y_t:
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

其中,f 由兩層前饋網絡實作。

注意力機制(Copy Mechanism):使用注意力機制生成大小為 V 的單詞,或從輸入語句 X 中複制單詞。在生成問題詞 y_t 時,考慮到目前解碼器的隐藏狀态 s_t 和上下文向量 c_t,計算一個複制開關來确定生成的詞是從字典生成的還是從源語句複制的。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
生成模式機率和複制模式機率相結合,得到最終的單詞分布:
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
答案位置推斷(Answer Position Inferring):引入雙向注意力流網絡 [3] 推斷答案位置,見圖 3。
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 3. 答案位置推斷架構

采用句子對問題(Sentence-to-Question,S2Q)注意和問題對句子(Question-to-Sentence,Q2S)注意來強調每個句子詞和每個問題詞之間的互相語義關聯,并利用相似的注意機制得到了問題感覺的句子表征 H 和句子感覺的問題表征 S:

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
然後,使用兩個兩層雙向 LSTMs 來捕獲以問題為條件的句子詞之間的互相作用。答案起始索引和結束索引由輸出層使用 Softmax 函數預測:
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
其中,f 函數是一個可訓練的多層感覺(MLP)網絡。使用真值答案起始标記 y1 和結束标記的負對數似然來計算損失:
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
為了在多任務學習方法中聯合訓練生成模型和所提出的子產品,訓練過程中的總損失函數記為:
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
作者在 SQuAD 和 MARCO 兩個資料集上進行了實驗,使用 NQG++[1]、Point-generator[2] 以及 SOTA 模型、門控自注意力機制模型等作為基線對比算法。表 3 給出了 SQuAD 和 MS-MARCO 資料集上不同模型的主要名額,在文章所述的實驗條件下,本文提出的模型在全部主要名額上都優于基線對比算法。
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 3. SQuAD 和 MARCO 資料集主要名額的模型性能比較

小結:與現有的問答系統、問題生成模型的處理方式不同,本文并不是通過引入更多的有效特征或者改進複制機制本身等來改進模型效果,而是直接在經典序列-序列模型(seq-to-seq)中增加了兩個子產品:句子級語義比對子產品和答案位置推斷子產品。此外,利用答案感覺門控融合機制來增強解碼器的初始狀态,進而進一步改進模型的處理效果。

2、TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection

https://arxiv.org/pdf/1911.04118.pdf
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

這篇文章聚焦的是問答系統(Q&A)中的另外一個問題:回答句子選擇(Answer Sentence Selection,AS2),給定一個問題和一組候選答案句子,選擇出正确回答問題的句子(例如,由搜尋引擎檢索)。AS2 是目前虛拟客服中普遍采用的技術,例如 Google Home、Alexa、Siri 等,即采用搜尋引擎+AS2 的模式。

在自然語言處理領域中使用基于神經網絡的模型,通過對大量資料進行神經網絡預訓練來擷取單詞及其複合詞之間的依賴關系,之後再做精調(fine-tuning)以滿足在專門的目标領域中的應用。本文的主要工作包括兩方面:一,提出一種基于變壓器(Transformer-based)的 AS2 模型,為解決 AS2 的資料稀缺性問題和精調步驟的不穩定性提供了有效的解決方案。二,建構了一個應用于 AS2 的資料庫 ASNQ(Answer Sentence Natural Questions)。

本文提出了一種用于自然語言任務的預訓練變換模型精調的有效技術-TANDA( Transfer AND Adapt)。首先通過使用一個大而高品質的資料集對模型進行精調,将一個預先訓練的模型轉換為一個用于一般任務的模型。然後,執行第二個精調步驟,以使傳輸的模型适應目标域。TANDA 架構如圖 4(以 BERT 為例)。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 4. TANDA 整體架構

AS2 任務:給定問題 q 和答案句子庫 S={s1,...,sn},AS2 任務目的是找到能夠正确回答 q 的句子 s_k,r(q,S)=s_k,其中 k=argmax p(q,s_i),使用神經網絡模型計算 p(q,s_i)。

變壓器模型 (Transformer Model):變壓器模型的目的是捕獲單詞間的依賴關系。圖 5 給出文本對分類任務的變壓器模型架構。輸入包括兩條文本,Tok^1 和 Tok^2,由三個标記 [CLS]、[SEP] 和 [EOS] 分隔。将根據令牌、段及其位置編碼的嵌入向量作為輸入,輸入到多頭注意力機制、歸一化、前向回報處理的神經網絡中。輸出為表征文本對的嵌入向量 x,x 描述單詞、句子分段之間的依賴關系。将 x 輸入到全連接配接層中,輸出層用于最終的任務,例如,應用 softmax 對文本對分類的機率進行模組化:

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
圖 4. 帶有線性分類器的變壓器結構
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
其中,W_T、B_T 為全連接配接層的權重。在實際應用中,一般需要使用大量監督資料完成這一步的訓練任務。
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 5. 使用線性分類器做 AS2 精調的變壓器結構

TANDA:在經典的任務中,一般隻針對目标任務和域進行一次模型精調。對于 AS2,訓練資料是由問題和答案組成的包含正負标簽(答案是否正确回答了問題)的句子對。當訓練樣本資料較少時,完成 AS2 任務的模型穩定性較差,此時在新任務中推廣需要大量樣本來精調大量的變壓器參數。本文提出,将精調過程分為兩個步驟:轉移到任務,然後适應目标域。

首先,使用 AS2 的大型通用資料集完成标準的精調處理。這個步驟應該将語言模型遷移到具體的 AS2 任務。由于目标域的特殊性(AS2),所得到的模型在目标域的資料上無法達到最佳性能,此時采用第二個精調步驟使分類器适應目标域。

TANDA 的處理方式是在通用資料庫和目标域資料庫中分别做精調(一次 fine-tuning → 二次 fine-tuning)。這裡有一個很直覺的質疑,同時在通用資料庫和目标資料庫中訓練+精調是否也可以達到同樣的效果且節省處理時間?但是實際上,這樣的組合很難優化,因為在精調模型步驟中,處理目标資料與處理通用資料所需要的權重并不相同。作者在後續的實驗中專門針對這個問題進行了驗證,即在通用、目标資料庫中做兩次精調處理的效果優于在合并的通用+目标資料庫做一次精調處理的效果。

ASNQ:本文建構了一個專門适用于 AS2 任務的通用資料庫 ASNQ。ASNQ 基于經典 NQ 語料庫建設 [4],NQ 是用于機器閱讀(Machine Reading,MR)任務的語料庫,其中每個問題與一個 Wiki 頁面關聯。針對每一個問題,一個長段落 (long_answer) 包含從參考頁面中提取的答案,其中包含多個标記為 short_answer 的段落。由于 long_answer 中包含多條語句,是以 NQ 并不直接适用于 AS2 任務。

在建構 ASNQ 的過程中,針對目标問題,正标簽的答案資料表示在 NQ 中 long_answer 中出現的語句,它可能包含了多個 short answer;其餘的語句均标記為負标簽,具體包括:1)在 NQ 中 long_answer 中出現的語句但是不包括标記的 short answer;2)沒在 NQ 中 long_answer 中出現的語句,但是包含了 short answer;3)沒在 NQ 中 long_answer 中出現的語句,也不包含 short answer。

ASNQ 有四個标簽,用來描述候選句子可能的混淆程度。對 NQ 的訓練集和開發集執行相同的處理,圖 6 中示出了一個示例,表 4 則給出了 ASNQ 統計資訊。ASNQ 在訓練集中包含 57242 個不同的問題,在開發集中包含 2672 個不同的問題,這比大多數公開的 AS2 資料集都大一個數量級。對于 TANDA 中的轉移(Transfer)步驟,我們使用帶有标簽 1、2 和 3 的 ASNQ 句子對作為否定,标簽 4 作為肯定。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 6. 從 NQ 到 ASNQ 的資料轉換示例

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 4. ASNQ 的标簽說明。這裡的 S、LA、SA 分别指的是回答句、長句和短句

本文分别在實驗庫和工業環境庫中進行實驗。其中,實驗基準庫為 WikiQA、TREC-QA 和 ONLI。在神經網絡模型的選擇上,使用預先訓練的 BERT-Base(12 層)、BERT-Large(24 層)、RoBERTa-Base(12 層)和 RoBERTa-Large-MNLI(24 層)模型。訓練階段,采用 Adam 優化器,将 BERT/RoBERTa 的最大序列長度設為 128 個 Token。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 5.WikiQA 資料集上不同模型的性能

表 5 給出 WikiQA 資料集上不同模型的性能,這裡 Comp-Agg+LM+LC 是指 Y-oon 等人提出的具有語言模組化和潛在聚類的比較格雷蓋特模型 [5]。TL(QNLI)是指從 QNLI 語料庫中進行的遷移學習。L 和 B 分别達标較大資料庫和基線資料庫。相較于其它算法,TANDA 獲得了很大的改進,RoBERTa-Large TANDA 使用 ASNQ→WikiQA 在 WikiQA 上 MAP 為 0.920、MRR 為 0.933。最後,在本實驗中,僅在 ASNQ 中的标準精調處理就已經超過了先前模型效果,這主要是因為 ASNQ 和 WikiQA 都是由 Wikipedia 的答案組成的。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 6. 不同模型在 TREC-QA 資料集上的性能

表 6 給出不同模型在 TREC-QA 資料集上的性能,在本實驗中,TANDA 的效果優于已有模型。另外,僅在 ASNQ 上使用精調(FT)得到的模型效果與預期相同,由于 TREC 問題的目标域與 ASNQ 的目标域顯著不同,是以僅在 ASNQ 中的标準精調處理的性能遠低于任何 TANDA 模型,也低于直接在 TREC-QA 上進行精調處理的性能。

本文還針對直接合并 ASNQ 和 TREC-QA 的資料集進行了精調測試,在 ASNQ->TREC-QA 上精調的 BERT-Base 模型得到的 MAP 和 MRR 分别為 0.898 和 0.929,明顯低于表 6 中給出的 0.912 MAP 和 0.951 MRR 的值。

最後,本文選擇亞馬遜的 Alexa Visual Assistant 進行工業場景中的實驗。基于三個帶有資訊意圖的問題樣本建構了三個測試集,這些問題可以用非結構化文本來回答。樣本 1 的問題是從 NQ 問題中提取的,而樣本 2 和樣本 3 的問題是從 Alexa 使用者的問題中生成的。對于每個問題,我們從搜尋引擎檢索的頂級文檔中選擇了 100 個句子候選:(i)對于生成樣本 1 和樣本 2,使用了一個彈性搜尋系統,該系統包含多個 web 域,範圍包括 Wikipedia、 toreference.com、coolantarctica.com、www.cia.gov/library 等;(ii)對于生成樣本 3,使用一個商業搜尋引擎以獲得更高的檢索品質。此外,使用與樣本 2 相似的方法建構了一個噪聲資料集(NAD),每個問題隻檢索 10 個候選。這使得對大量問題進行更便宜的注釋成為可能,對于建構有效的訓練集非常重要。表 7 給出資料庫的情況。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 7. 樣本 1、2、3 統計精确測試集和添加噪聲的資料集

使用 ASNQ 作為通用資料集,使用 NAD 作為自适應步驟的目标資料集。表 8 中所有使用 NAD 進行訓練和精确資料集進行測試的實驗均表明,TANDA 對真實的 NAD 噪聲具有很強的魯棒性,其效果總是優于簡單的精調方法。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 8. 基于 Alexa 真實資料集的精調 FT 與 TANDA 的比較

小結:本文的工作實際上是将經典的精調(fine-tuning)過程拆成了兩次,其中一次針對通用資料集,另一次針對目标資料集,此外,還專門建構了适用于 AS2 任務的通用資料集 ASNQ。本文在兩個著名的實驗基準庫:WikiQA 和 TREC-QA 上進行實驗,分别達到了 92% 和 94.3% 的 MAP 分數,超過了近期獲得的 83.4% 和 87.5% 的最高分數。本文還讨論了 TANDA 在受不同類型噪聲影響的 Alexa 特定資料集中的實驗,确認了 TANDA 在工業環境中的有效性。

3、On the Generation of Medical Question-Answer Pairs

https://arxiv.org/pdf/1811.00681.pdf
AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

這篇文章具體介紹問答系統(Q&A)在醫學場景中的應用。随着網絡發展,越來越多的人希望能夠線上擷取醫療健康相關的幫助,特别是對于醫療資源有限的地區,這種方式能夠大大減少病人到醫院就診的次數,進而緩解醫療壓力。盡管問答系統在諸多領域中應用都獲得了很好的效果,但在醫學場景中仍面臨很多困難。首先,醫療線上問答依賴于準确、專業的醫學知識;其次,用預訓練模型的高品質的醫學标記問答語句對非常少,基于神經網絡的問答系統在缺少訓練資料的情況下,很難生成有效模型。

本文的工作主要是生成醫學問答語句對(QA 對)。假設每個醫學答案對應一個有效問題的分布,而有效問題的分布應該受到外部醫學知識的限制。遵循這一假設,如果能夠在與原始 QA 對相同的知識基礎上生成更多的高品質 QA 對,就可以補充現有醫學 QA 對的潛在分布,進而使醫學 QA 系統更容易學習無偏模型。醫學 QA 對的生成面臨的主要問題是很難同時保持生成 QA 對的多樣性和有效性。

為了解決多樣性和有效性的問題,本文提出了整合結構化和非結構化知識的兩種機制來生成 QA 對。首先利用分層條件變分自動編碼器(Conditional Variational Auto-encoder,CVAE)架構來解決全局短語級别的多樣性和有效性問題,該架構模拟了原始醫學 QA 對中的短語級别關系,在不破壞這些關系的情況下生成新的 QA 對。然後,本文提出了一個多通道解碼器,其中所有的本地元件(短語類型、每個短語中的實體)耦合在一起,并以端到端的方式進行聯合優化。架構整體結構見圖 7,整個架構包括一個關鍵短語檢測器和一個基于實體引導的 CVAE 生成器(eg-CVAE),最終将原始的和由該架構生成的 QA 對輸入到 QA 系統中完成訓練。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 7. 本文提出的生成 QA 對的架構圖示

由于醫學問題的特殊性,在進行醫學領域問答系統研究時,一般假定多個問題可能對應同一個答案。由此,生成醫學 QA 對的問題可以看做:給定一個答案,生成可能的問題語句。本文提出的生成醫學 QA 對的架構可以看做是給定答案和新問題樣本的情況下,計算問題潛在可能性的問題。根據圖 7 所示,該架構由下述幾個部分組成。

關鍵短語檢測器(Key Phrase Detector):每一條醫學問題 Q 都由多個短語 Pk 組成,包括病人的症狀、檢查結果等,每個短語都包含若幹個單詞。所述關鍵短語是指與答案高度相關的短語。

首先使用每個醫療 QA 對作為查詢,對給定的醫療資訊執行基于 Elasticsearch 的檢索 [6]。同時,使用規則來確定檢索文本中存在答案,表示為 Ri, i∈[1,M](M 表示檢索文本的數量)。本文提出了一種無監督的比對政策,通過将某個短語的 Pk 與所有的 Ri 進行比對,來建立該短語 Pk 與答案的相關性模型。具體來講,将每個 Ri 劃分為短語 P^(Ri)。通過對詞嵌入特征 v_j, j∈[1,L] 進行多級池化處理,在同一個向量空間中表示 P^(Ri) 和 Pk[7]。計算每個 Pk 與其對應的 P^(Ri),i∈[1,M] 的 cosine 距離,将最高值存儲為 (s_k)^(Ri)。QA 對中每個短語 Pk 的這些分數将被規範化為 s_k,s_k∈[0,1],以便使用最小-最大方法進行最終抽樣決策。

基于實體引導的 CVAE 生成器(Entity-guided CVAE based Generator):一個醫學問題有兩個層次結構:一個結構存在于短語中,它由涉及的醫療實體的局部資訊支配,另一個結構是一個獨特的跨短語結構,它主要由短語類型和相應的答案等決定。本文在兩個層次中探索答案條件下的醫學問題生成:子序列(疊代短語生成過程)和單詞子序列。首先,使用條件變分自動編碼器(VAE)對整個問題進行限制模組化,之後,再對每個短語的内部結構進行模組化。在内部模組化過程中引入了三步解碼過程:先隐式類型(type)模組化,然後顯式實體(entity)模組化,最後是短語解碼。

(1)CVAE 生成器的整體結構見圖 8。本文使用經典的 CAVE 架構 [7] 用于生成對話,該架構将生成過程看作是一個疊代的短語處理過程。使用三個随機變量表示每個短語生成過程:短語上下文 c、目标短語 x 和用于捕獲所有有效短語的潛在分布的潛在變量 z。對于每個短語,c 由問題中其他短語的順序和相應的答案組成。短語生成過程的條件分布為:P(x, z|c) = P(x|c, z) · P(z|c),學習目标則是通過神經網絡優化逼近 P(z|c) 和 P(x|c, z)。令 P_θ(z|c) 作為先驗網絡,P_θ(x|c, z) 為目标短語解碼器。目标短語 x 的生成過程為:首先從 P_θ(z|c) 抽樣潛變量 z (假定為參數化高斯分布),然後通過 P_θ(x|c, z) 生成 x。

CVAE 的訓練目标是,假設兩個 z 都服從對角協方差矩陣的多元高斯分布,給定 c 最大化 x 的條件對數似然機率,同時最小化後驗分布 P(z|x, c) 和先驗分布 P(z|c) 之間的 KL 散度。此外, 引入一個識别網絡 Q_φ(z | x, c) 來近似真實的後驗分布 P (x, z | c)。通過最大化條件對數似然的變分下界實作 CVAE 訓練:

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

時間戳 k 的最後一個短語解碼器是一個單層的 GRU 網絡,初始狀态設定為 W_k[z, c] + b_k。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

圖 8. CAVE 生成器整體結構

(2)短語增強編碼器(Phrase-type Augmented Encoder)

短語包含兩層特征:作為周圍或上下文短語類型資訊的全局特征,以及,每個短語中的實體類型知識的局部特征。由于直接從專家處擷取已标記的醫學資料非常困難,本文建議直接使用結構化實體詞典并對短語類型進行模組化。在預訓練任務中,采用了一個 Bi-LSTM-CRF 模型,該模型以每個詞在問題中的嵌入作為輸入,詞的類型作為輸出。使用 Bi-LSTM 層來編碼單詞級的局部特征,使用 CRF 層來捕獲句子級的類型資訊。

每個單詞 k 的 Bi-LSTM 隐藏層狀态 h_k 可以通過上下文類型資訊進行編碼。考慮到每個短語都可以被分成多個單詞,通過在每個單詞的 h_k 上執行最大池化操作來引入短語類型資訊。将時間戳 k 的上下文類型資訊 t_k 與隐藏層狀态級聯後生成短語特征向量 hv_k。

(3)實體引導的解碼器(Entity-guided Decoder)

在解碼過程中,除了對相應的答案進行調節外,本文還對潛在 z 引入了額外的限制。本文提出了一種将短語層間資訊和短語層内資訊作為限制條件的多步解碼方法。首先,對實體字典在第一次周遊時的上下文類型 t 進行模組化,以確定跨短語的類型資訊的一緻性。然後,第二遍顯式模組化實體 e。通過在推理過程中添加實體級别的變化來促進生成過程的多樣性,進而允許生成對相同答案具有相似語義但包含不同實體的短語。

我們假設短語 Pk 的生成取決于 c、z、t 和 e,其中 e 依賴于 c、z、t,t 依賴于 c、z。在訓練過程中,最後一個解碼器的初始狀态為 d_k= W_k[z, c, t, e] + b_k,輸入為 [w, t, e_k],其中 w 為 x 中單詞的詞嵌入,e_k 為 x 中完整實體嵌入的平均池化嵌入。在第一個類型預測階段,基于 z 和 c 預測 t』:t『』= M LP_t(z, c)。在第二個實體預測階段,基于 z、c、t,預測 e_softmax』 = M LP_e(z, c, t)。最後,e_softmax』與整個實體嵌入矩陣相乘,生成 e』_k 的聚合。在測試階段,t』和 e』_k 用語最終的短語解碼。

(4)訓練目标函數

通過引入第一階段訓練的短語類型資訊,沒有實體模組化的 eg-CVAE 的修正變分下界為:

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

為了驗證所提方法的有效性,本文在實驗過程中收集了來自中國國家醫療執業資格考試 (NMLEC_QA) 的真實醫學 QA 對。收集到的 NMLEC_QA 資料集包含 18,798 個 QA 對,作者根據這些原始的 QA 對生成新的 QA 對。使用 NMLEC 2017 作為評估 QA 系統的測試集,而不用于生成 QA 對。醫學實體字典是從醫學維基百科頁面中提取出來的,建構的字典涵蓋了 19 種類型的醫學實體。非結構化醫學教材由 2130128 篇醫學領域發表的論文和 518 本專業醫學教材組成。

作者在實驗中選擇 HRED(多級 RNN 編碼器的序列到序列模型)[9] 和 VHRED(多級條件 VAE 模型)[10] 作為基線對比算法。自動評估名額下的性能比較見表 9。其中,BLEU 是一種常用的度量方法,用長度懲罰來度量修改後的 n-gram 精度的幾何平均值;BOW Embedding 通過對短語中所有單詞的平均、極端或貪婪政策來比對短語嵌入的度量方式;Distinct:計算生成短語的多樣性的度量,進一步将 intra-dist 定義為每個抽樣短語中不同值的平均值,inter-dist 定義為所有抽樣短語中不同值的平均值。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 9. 不同方法的評估名額

在表 9 中,BLEU 和 BOW 度量的主要目的是檢驗結果的相似性。eg-CVAE 的設計目的是為了促進語義的多樣性,是以語義相似度得分不是很高。基于 CVAE 的 VHRED 不涉及對 z 的潛在分布的任何限制,HRED 對解碼過程進行了明确的模組化,而沒有對隐藏上下文進行進一步的操作,是以它們的語義相似度得分屬于中等。本文提出的 type-CVAE 考慮了先驗類型資訊,entity-CVAE 則考慮了實體顯示資訊,這些限制有助于模型生成更多與原始 QA 對相似的 QA 對。另一方面,從多樣性的角度來看,eg-CVAE 在不同的度量上得分最高。這是因為 eg-CVAE 基于潛在的答案條件分布,而不是一個确定的解碼過程來分層生成新的問題。

本文還利用 NMLEC_QA 資料集中 10% 的樣本進行人工評估。三位專家 (真正的醫生) 被要求從三個角度來評估每一對 QA: 1) 一緻性:生成的 QA 與原始的 QA 有多一緻?2) 提供資訊:生成的 QA 提供了多少資訊?3)流利:生成的問題的短語有多流利? 每個問題都用 1(最差) 到 5(最好) 的分數進行評估。平均結果如表 10 所示。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 10. 人工評價結果

表 10 中的結果表明,本文提出的方法效果優于 HRED 和 VHRED。通過對類型層次和實體層次的模組化能夠有效捕獲關鍵資訊,同時來自這兩層模組化的先驗資訊也保證了本文的模型産生資訊豐富和流暢的問題的良好能力。

為了進一步研究所學生成的 QA 對的有效性,作者将這些生成的 QA 對內建到一個問答系統中,該系統是一個針對 NMLEC_QA 資料庫的基于注意力機制的模型 [11]。結果如表 11 所示。本文提出的 eg-CVAE 方法結合了 entity-CVAE 和 type-CVAE 的優點,建構了一個三階段解碼流程,進而改進了 QA 系統,達到了最高的準确率。這些觀察結果進一步證明了 eg-CVAE 生成的 QA 對的有效性。

AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展

表 11. 生成的 QA 對的有效性

小結:

由于外部知識的需求和高品質教育訓練資料的不足,在醫學領域等現實場景中應用問答系統仍然具有挑戰性。針對這些挑戰,本文研究了生成醫學 QA 對的任務。基于每個醫學問題都可以看作是給定答案的潛在分布樣本的觀點,本文提出了一個自動的醫學 QA 對生成架構,該架構由一個無監督的關鍵短語檢測器組成,該檢測器探索非結構化材料的有效性,以及包含多通解碼器以整合結構知識以實作多樣性的産生器。

總結

在本篇提前看中,我們選取了 AAAI2020 的三篇關于問答系統的文章進行分析。問答系統近年來廣泛應用于很多實際場景,包括手機廠商的語音助手(Siri、Alexa、Bixby...)、APP 的各類問答應用(度秘、玩秘...)以及醫學和教育學等專業領域的虛拟客服等。從 AAAI 2020 的錄用論文也可以看出,在接受的 1591 篇文章中,專門研究問答系統的文章超過了 40 篇。

目前,神經網絡仍然是問答系統所主要采用的方法,在本文的三篇文章中,第一篇使用序列-序列模型,第二篇使用 BERT,而第三篇文章為了驗證提取的 QA 對的有效性,使用了基于注意力機制的模型。為了改進問答系統的效果,目前一些方法的主要目的仍然是基于訓練庫提取更多有效的資訊,一方面可以改進訓練庫(第二篇文章使用了通用資料庫+專門目标域資料庫的方式),另一方面嘗試提取全局資訊、上下文資訊等複雜的語義資訊(第一篇文章提出的句子級語義比對、答案位置推斷的方法)。此外,針對專門的應用領域,需要結合單詞、句子和文本的特征進行具體的分析和處理。

上一篇: 正規表達式
下一篇: java bean