ACL 2022｜複旦、位元組等推出首個可解釋類比推理資料集，中英雙語

機器之心專欄

作者：陳江捷、徐銳

來自複旦大學、位元組跳動人工智能實驗室等機構的研究者提出E-KAR 資料集，這是首個可解釋的知識密集型類比推理資料集，相關工作已經被 ACL 2022 Findings 接收。

類比在人類認知中占有重要地位，通過類比可以發現新的見解和證明日常的推理，比如老師在課堂上用煮熟的雞蛋類比地球的構造，使得學生很快了解了不能親自體驗的知識。由于在多個領域有着獨特價值，類比成為了人工智能研究領域的重要問題。

在 NLP 中，我們比較熟悉的是以多選題形式出現的詞類比識别問題，然而現有的詞類比資料集關注簡單的二進制類比關系，并且缺乏用于屆時類比推理過程的标注資訊。是以，解答這一類問題并不能揭示神經網絡模型類比推理的内在過程，這對探究類比的内部性質來說是不利的[6]。我們亟需一類更困難的、可解釋的類比推理資料集。

本文介紹來自複旦大學、位元組跳動人工智能實驗室等機構研究者的最新工作 E-KAR，相關工作已經被 ACL 2022 Findings 接收。E-KAR 是首個可解釋的知識密集型類比推理資料集，由 1,655 個（中文）和 1,251 個（英文）來自中國公務員考試的問題組成，并提出了類比推理問題的兩個基準任務，用于教會和驗證模型學習類比的能力。

論文連結：https://arxiv.org/abs/2203.08480

項目首頁：https://ekar-leaderboard.github.io

研究背景

簡單類比

現有的類比推理資料集，多以選擇題的形式出現，下圖是來自 BATS 資料集 [3] 的一個例子，選項分别是 “馬克思” 比“德國人”、“孔子”比 “俄羅斯人”、“凱撒” 比“美國人”和 “柏拉圖” 比“加拿大人”，需要選擇的是與問題：“牛頓”比 “英國人” 相同對應關系的選項。

圖 1 BATS 資料集中的示例

解決這種簡單的類比問題，一種有效的方法是使用像 Word2Vec[2]這樣靜态的詞嵌入，例如我們都很熟悉的這個方程式：

圖 2 著名的詞嵌入方程式（國王 - 男人 + 女人 = 王後）

這一類方法通常認為兩個詞語之間的關系可以通過詞嵌入的向量運算來估計，這被稱為線性類比（Linear Analogy）[4]。這種方法行之有效的原因之一是，目前的類比推理資料集通常被設計為評估線性類比屬性。這類資料集富含簡單的二進制關系，如詞彙、形态和簡單的語義關系，像前面 “牛頓” 比“英國人”的例子，揭示的是 “人物” 和“國籍”的關系。此外，它們也是不可解釋的，是以無法揭示實際的類似人類的類比推理過程。

複雜類比

比起這種相對簡單的線性類比，該研究專注于更加複雜的類比推理問題（Complex Analogy），這需要了解更多複雜的詞語之間的關系。針對于此，本文提出了 E-KAR 資料集，參考一些類比相關的權威書籍和其他定義，完成這些問題還需要有一系列推理過程和背景知識，下圖是其中的一個例子（讀者可以嘗試完成）：

圖 3 E-KAR 資料集中的示例

E-KAR 資料集

E-KAR 資料集是首個可解釋的類比推理資料集，它有三個特點：挑戰性、可解釋性和雙語性。

挑戰性

E-KAR 具有挑戰性，因為它來源于中國的公務員考試，這是一項對考生的批判性思維和解決問題能力的綜合測試，想要解決其中的類比推理問題，需要考生了解選項中的關系，這要求一定的推理能力和背景知識，特别是常識、事實和文化知識，以及知道為什麼一個事實被否定，例如汽車不是由輪胎制造的，因為汽車是由輪胎組成的。

可解釋性

E-KAR 的第二個特點是可解釋性，每條資料的問題和選項都有對應的人工注釋的自由文本解釋。但首先我們需要搞清楚：如何使類比推理可解釋？

為了回答這個問題，首先需要明白人類是如何進行類比推理的。根據一些認知心理學的研究[1]，類比推理遵循一個結構映射 (structure-mapping) 過程。這個過程包含歸納，映射與檢驗三個步驟。我們以 E-KAR 中的一組資料為例（見圖 4）：

1. 歸納 (Abduction)：對于源域 (source domain) 與目标域 (target domain) 來說，首先設想出一個源結構 (source structure) ，這個結構也可能适用于目标域，在該資料集中，源域是問題，而目标域是每個選項，源結構是問題詞之間的隐含關系，在例子中則是茶壺和茶杯都是盛放茶葉的容器，茶壺将茶葉輸送到茶杯中；

2. 映射 (Mapping)：接着将這種結構映射到目标域，也就是說，将每個選項的詞映射到查詢中的源結構中；

3. 檢驗 (Validation)：最後，檢查映射的有效性，并解釋映射是否正确。在示例中，隻有選項 C ："人才：學校：企業" 滿足問題中的源結構。因為學校和企業是人才的組織，學校将人才運送到企業。

圖 4 類比推理中的結構映射

是以，該研究将結構映射的過程改寫為自然語言文本，進而使類比推理的過程可解釋，也就是 E-KAR 的可解釋性。

雙語性

該研究利用機翻加人工後編輯的方式，将中文版的 E-KAR 翻譯為了英文版本。在英文資料中，研究者手動删除了那些具有中文特征的資料（成語、典故等），以更好的友善非中文背景的研究者。由于這些資料具有高度的中國文化背景，研究者在中文資料集中保留了這部分資料以促進中文 NLP 的發展。最後，得到了 1655 條中文資料集和 1251 條英文資料集，各自有 8275 句和 6255 句自然語言形式的解釋文本。

任務設定

E-KAR 的最終目标是使得模型能夠做出正确的選擇，同時産生合理的解釋。為此，該研究在 E-KAR 中定義了兩個共享任務：類比推理問答任務（Question Answering, QA）和類比解釋生成任務（Explanation Generation, EG）：

類比推理問答任務 (QA)：即讓模型去完成 E-KAR 中的問題，輸入為問題和四個選項，輸出為正确的答案，最終結果用準确率進行評估。

類比解釋生成任務 (EG)：即生成問題和每個候選答案的相應解釋，除了基礎的文本生成名額外，該研究主要使用一種間接的名額進行評估：加入生成解釋後的類比回答任務準确率，即将生成的解釋作為類比推理問答任務 (QA) 額外的輸入時後者準确率的變化情況。

實驗與結論

該研究基于 E-KAR 在這兩個任務上進行了一些初步實驗，發現：

1. 詞嵌入與語言模型在複雜類比上的表現都不好

該研究首先基于詞嵌入和預訓練語言模型 (BERT、RoBERTa) 進行了類比推理問答任務 (QA) 的實驗，結果如圖 5 所示，這表明無論是靜态詞嵌入還是目前最先進的語言模型，要想完成 E-KAR 這種複雜和知識密集型的類比推理任務都很困難。

圖 5 詞嵌入在 E-KAR 和簡單類比資料集上的準确率

作為對比，人類能夠達到 78% 的準确率，而表現最好的語言模型 (RoBERTa large) 隻能達到 50%（圖 6）。

圖 6 詞嵌入、語言模型和人類在簡單類比與複雜類比上的準确率對比

類比問答錯誤分析

該研究對結果進行了錯誤分析（圖 7），發現大多數錯誤發生在語義關系上，如 is_a、part_of、juxtaposition_of 等。這些類型的關系通常需要大量的常識和事實知識的參與。

圖 7 類比推理問答任務 (QA) 錯誤分析

2. 語言模型在可解釋的類比推理上表現不好

該研究的類比解釋生成可以生成每個問題和選項的對應解釋，再将這些解釋用于類比推理問答任務 (QA)，這也是展現可解釋性的關鍵步驟，然而一系列實驗表明，語言模型并不能生成對類比推理問答任務(QA) 很有幫助的解釋。

首先，用該研究事先标注好的解釋去作為額外的輸入，能幫助類比推理問答任務 (QA) 達到接近完美準确率。然而替換成生成的解釋時，結果卻差很多（圖 8）。

圖 8 事先标注的解釋與模型生成的解釋對 QA 任務的幫助對比

解釋生成錯誤分析

該研究也對類比解釋生成任務 (EG) 進行了錯誤分析（圖 9），發現問題主要出現在這三個方面：

1. 無法生成否定的事實；

2. 生成的是與事實不符的句子；

3. 生成結果偏向于常見的模式。

其中，該研究對否定詞的生成特别感興趣。結果顯示約有 90% 的錯誤選項的人工标注解釋，包含了否定詞 "不"，而在生成的解釋中，這一數字則下降到約 20%。這似乎表明目前的生成模型不知道如何生成一個被否定但卻是正确的事實。由于許多解釋含有否定詞，研究者探讨否定詞的生成是否影響了模型的判斷，為此該研究删除了測試集中含有否定詞 NOT 的句子，結果發現準确率隻下降了一點。是以，另一個結論是，當給出人工标注的解釋時，類比推理問答 (QA) 任務的模型似乎并不偏向于否定詞。

圖 9 展示了一個基本涵蓋了上述幾乎所有錯誤類型的例子。代表問題的解釋，代表選項 A 的解釋，表示為模型 (BART large) 生成的，不帶的是事先标注好的，可以看到，對于否定句，模型不知道鹽和氯化鈉都不是隻由一種元素組成的，生成的解釋偏向于 “A 是 B” 的模式。

圖 9 E-KAR 資料集中的示例 2

總結

在這篇文章中，研究者提出了一個新的類比推理資料集 E-KAR，它具有挑戰性，雙語性和可解釋性，同時研究者定義了兩個該資料集的共享任務：類比推理問答任務 (QA) 和類比解釋生成任務 (EG) ，用于教會模型如何學會類比的能力。該研究希望這項工作能補充現有的自然語言推理研究，特别是類比推理和可解釋的 NLP 的相關研究。

E-KAR 資料集中很多題目依賴于外部知識，需要對常識、百科和文化知識有一定了解，是以如何注入外部知識提升推理能力是未來的一大方向。注入外部知識可以通過自由文本、知識圖譜等形式，代替解釋作為輸入的一部分，模型可以分為檢索部分和問答部分。檢索部分負責在外部知識庫中搜尋相關詞組，并重構其相關知識的表示，問答部分負責融合檢索到的外部知識與原輸入，提升模型推理能力。

參考文獻

1.Gerhard Minnameier. 2010. Abduction, induction, and analogy. In Model-based reasoning in science and technology, pages 107–119. Springer.

2.Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

3.Gladkova A, Drozd A, Matsuoka S. Analogy-based detection of morphological and semantic relations with word embeddings: what works and what doesn’t[C]//Proceedings of the NAACL Student Research Workshop. 2016: 8-15.

4.Ethayarajh K, Duvenaud D, Hirst G. Towards understanding linear word analogies[J]. arXiv preprint arXiv:1810.04882, 2018.

5.Ushio A, Espinosa-Anke L, Schockaert S, et al. BERT is to NLP what AlexNet is to CV: can pre-trained language models identify analogies?[J]. arXiv preprint arXiv:2105.04949, 2021.

ACL 2022｜複旦、位元組等推出首個可解釋類比推理資料集，中英雙語

繼續閱讀

36歲海後讓馬斯克出錢捐款，離婚後還霸占德普的房和車，“本性貪婪”

提高免疫療法效果，複旦團隊揭示RORγt激動劑與PD-1抑制劑聯用機制

33歲女博士留下70篇臨終日記，10年後丈夫：我沒再婚，兒子成學霸

張桂麗：“日記百年萬口傳”——李慈銘的交遊和閱讀

複旦研究所學生查文獻自制藥物，銷售額超千萬，被稱貓版“藥神”！最終被刑拘

金鏟鏟之戰 “高校杯”八強專訪——複旦大學.寶寶铎

“為啥不建議奶奶帶娃？”複旦女教師一席話，無數寶媽直言：太難了

複旦兒科新冠密接新生兒出院已破百例，病區裡這群“大白媽媽”呵護小小生命

複旦大學教授陳引馳：莊子不會拒絕手機和網際網路

6使用Python批量進行資料分析

位元組複活“悟空問答”，變更為類似于工具模式的知乎

複旦團隊釋出國内首個類ChatGPT模型MOSS，邀公衆參與内測

複旦MOSS大模型拟4月中旬開源，邱錫鵬詳解如何建構

複旦教授演講驚人：“不能再對孩子讓步”，否則後果嚴重

複旦MOSS大模型開源了！Github和Hugging Face同時上線

清華大學的名字是黃蓉取的