NLP新裡程碑！清華姚班畢業生釋出KEAR：首次常識問答超越人類

新智元報道

編輯：LRS 好困

【新智元導讀】以後再也不能說人類比AI還懂常識了！最近由微軟黃學東坐鎮，清華姚班畢業生釋出了一個新系統KEAR，成功刷榜各大常識問答排行榜，常識問答性能首次超越人類，甚至非英文的常識他也懂！

AI模型一直為人诟病的一點就是隻會「死學習」，隻能根據給定的訓練樣本來進行預測，稍微問一點「常識性」的問題它都回答不了。

比如你問GPT-3：太陽有幾個眼睛？

它會毫不猶豫的告訴你：當然是一個眼睛！

雖然常識資訊沒有展現在輸入文本中，但如果不懂常識的話，那回答隻能是驢唇不對馬嘴。

為了解決這類常識性錯誤，研究人員借助ConceptNet建立了一個專門針對常識問答的資料集CommonsenseQA，要求模型必須得了解常識才能夠正确回答問題。

每個問題包含五個候選答案，其中有兩個是幹擾項，對AI模型來說屬于是難上加難了。

例如給定一個問題：你的狗喜歡吃什麼？（What is a treat that your dog will enjoy?）

候選答案可能是沙拉（salad）、撫摸（petted）、喜愛（affection）、骨頭（bone）、關心（lots of attention）等。人在與狗交往的過程中，可以了解到大部分狗都喜歡吃骨頭，進而推理出你的狗在候選答案中也更傾向于骨頭，但AI模型并不懂。

是以想要正确回答這個問題，必須要懂得如何利用外部知識。

然後CommonsenseQA的作者拿了一個當時橫掃各大排行榜的模型BERT-LARGE來做測試，結果慘不忍睹，準确率隻有55.9%，而人類的回答準确率已經達到了88.9%了。

時間來到三年後，最近來自微軟的華人團隊發表了一篇論文，提出了一個KEAR（Knowledge External Attention for commonsense Reasoning）系統，将CommonsenseQA常識問答的性能擡到了新高度，準确率達到89.4%，成功超越人類，堪稱AI常識領域的裡程碑模型了。

相比傳統AI模型需要大規模資料來訓練，這篇論文提出了一種外部注意力機制（external attention mechanism）來增強Transformer架構，能夠把外部知識資訊內建到預測的過程中，進而減少了模型對大參數量的需求，讓AI系統更加民主化（democratization），也就是說可以降低AI模型研究的門檻，不用從老黃那買特别多的顯示卡，也能實作SOTA性能。

大體來說，KEAR模型在回答「你的狗喜歡吃什麼」這個問題的時候，它會首先從ConceptNet實體鍊中檢索出「狗— desires — petted, affection, bone, lots of attention」，這樣就排除了一個錯誤答案沙拉。

然後KEAR會從Wiktionary中檢索出骨頭的定義：構成大多數脊椎動物骨架的複合材料（a composite material making up the skeleton of most vertebrates）；

從CommonsenseQA資料集中的訓練資料中檢索出「狗喜歡吃什麼？骨頭」（What do dogs like to eat? bones）。

再将檢索到的知識和輸入的知識進行級聯後，KEAR将其作為DeBERTa模型的輸入，最後可以推理出正确答案：骨頭！

可以看到，對于人類來說最簡單的一個問題，AI模型要完成卻需要大量的外部資訊才能正确回答。

由于CommonsenseQA隻是英文常識問答的資料，文中還探索了一下其他語言的常識推理是否依然有效。

研究人員首先将非英語問題翻譯成英語，然後在英語的語料資料中檢索知識，然後将知識文本翻譯成源語言，經過外部注意力機制後再翻譯獲得答案，即翻譯-檢索-翻譯（TRT）。

結果也是在X-CSR基準上的兩個任務X-CODAH和X-CSQA都取得了第一名。

不止于自注意力

時至今日，大部分AI模型基本都在源文本上使用自注意力機制，通過把大量的資料喂給模型進行訓練，進而使模型記住輸入的文本。

雖然Transformer的效果很好，但缺點也很明顯：

時間和空間複雜度太高，需要大量的顯示卡和顯存

資料量不夠的情況下，Transformer表現不夠好

另一方面，Transformer本質上還是黑盒模型，沒辦法讓他像人類一樣進行文本了解和推理，知道AI為什麼産生這樣的預測是很重要的，KERA通過利用知識圖譜、字典和公開可用的機器學習資料的常識性知識，能夠一定程度地反應答案的來源及模型推理過程。

外部注意力的實作方法也很簡單，将輸入（input）和知識（knowledge）級聯起來作為新的輸入，然後将整體作為H0經過自注意力機制即可。

其中K(nowledge)的來源包括知識圖譜ConceptNet, 字典和訓練資料。

可以看到，自注意力和外部注意力的主要差別就是輸入是否隻來源于輸入文本，即通過向外部注意力機制提供不同來源的相關背景和知識，包括知識圖譜、字典、語料庫和其他語言模型的輸出，然後讓模型同時對輸入進行自注意力和對知識進行外部注意力，就能達到引入外部知識的效果。

引入的外部資訊以符号（symbol）的方式存儲，如純文字或知識圖譜條目，進而能夠提升Transformer在語言了解方面的能力。

并且KEAR使用的輸入和知識的文本級聯不會對Transformer模型結構産生任何改變，使現有的系統可以很容易地使用外部注意力。

因為世界上的知識也是在動态變化的，是以外部注意力的另一個好處是，使用者可以很容易地更新知識源來改變模型的預測輸出。

通過引入最新的常識，例如将線上更新的知識圖譜輸入到模型中，可以使模型的決策過程變得更加透明和可解釋。

而用多子產品聯合優化、加上外注意力引入知識庫也是微軟人工智能認知服務提品質的核心方向。

作者介紹

文章的第一作者是徐一翀，大學畢業于清華大學姚班，于卡内基梅隆大學取得博士學位，主要研究方向為互動式機器學習，自然語言處理和深度學習。目前是微軟AI Cognitive Services研究組的進階研究員。

朱晨光是微軟認知服務研究組的首席研究負責人。他上司知識和語言團隊，從事文本總結、知識圖譜和面向任務的對話方面的研發工作。他于2016年在斯坦福大學獲得計算機科學博士學位和統計學碩士學位，在此之前于清華大學姚班獲得計算機科學學士學位。

黃學東是微軟AI認知服務工程和研究團隊的上司人，IEEE/ACM院士(IEEE/ACM Fellow) ，微軟首位「華人全球技術院士」、微軟首席語音科學家、微軟雲計算與人工智能事業部認知服務團隊全球技術院士/全球人工智能首席技術官。他先後獲得湖南大學學士學位，清華大學碩士學位和英國愛丁堡大學博士學位。

參考資料：

https://arxiv.org/abs/2112.03254

NLP新裡程碑！清華姚班畢業生釋出KEAR：首次常識問答超越人類

繼續閱讀

人工智能帶來育兒焦慮，澳洲華人家長為子女的未來憂愁

OpenAI o1與人工智能的過去與未來

未來不會被人工智能取代的4個領域，第1個最穩，第4個成本效益最高

Adobe的Project Turntable人工智能工具可在三維空間中旋轉二維藝術作品

陳健淋｜通用人工智能視野下企業資料賦權的類型展開

科學家利用新型人工智能揭開嬰兒學習和發育的秘密

南沙和華為強強聯手！共建人工智能生态基地

2025年人工智能十大趨勢！最新預測→

張藝謀透露《三體》進度：隻拍一部、大幅删改、引入人工智能

法蘭克福書展聚焦人工智能發展與監管

人工智能未來十大趨勢

研學報道|“探索科技前沿引領未來創新”人工智能創新應用博覽會研學之旅啟航

論壇直擊|人工智能創新應用發展領航交流會圓滿舉辦

數字科技、人工智能拯救春晚收視率

DeepSeek出世，人工智能厲害，教師會被取代嗎？讀書還有意義嗎？

一邊大量失業一邊搞人工智能，發展搶了幾億人飯碗，未來怎麼辦？