科大訊飛解鎖常識推理新成就，讓機器“能了解會思考”

4月12日，由科大訊飛承建的大陸首個認知智能國家重點實驗室，以76.06%的成績登頂常識推理挑戰賽CommonsenseQA 2.0，重新整理世界紀錄，在讓機器“能了解、會思考”上邁出一大步！

CommonsenseQA 2.0是艾倫人工智能研究院（Allen Institute for AI）于2021年主導釋出的國際常識推理評測資料集，旨在評估機器對常識知識的了解及掌握水準，吸引了包括Google、Allen Institute for AI、華盛頓大學等衆多國際頂尖機構參與挑戰。科大訊飛首次參賽，即創新性地提出ACROSS模型，以全新深度學習算法絕對優勢，重新整理機器常識推理水準世界紀錄。

從做“選擇題”到做“判斷題”，機器學會常識推理有多難？

常識推理（Commonsense Reasoning）是 NLP 最重要的前進方向之一，其目的是幫助計算機學習常識知識，并利用所掌握的知識進行深層次的了解及推理。該領域的進展及技術突破對人工智能發展具有重要的意義。

目前典型的閱讀了解模型所關注的問題類型主要是事實類問題，這類型的問題答案往往能直接在原文中找到，然而如何基于常識和背景知識進行推理以獲得答案仍舊是一個巨大的挑戰。

CommonsenseQA正是為了訓練機器像人類一樣基于先驗知識結合現實情況作答能力而設定的資料集。當人們回答問題時，往往會利用自身了解的知識結合特定的背景來判斷問題答案。比如常識、背景知識、空間關系、科學事實、社會慣例等。

CommonsenseQA 1.0任務示例

如上圖任務示例中的第二個問題，“我可以站在河上的什麼地方看水流而不會弄濕自己？”可以從選擇項中推斷我是在橋上。這種知識對人類而言似乎很好了解，但是如何讓機器學會常識及背景知識并進行準确推理，仍然是一個巨大的挑戰。

CommonsenseQA 2.0是一個二進制分類資料集，包含14343個問題，主要分為訓練/開發/測試集，需要判斷常識性陳述是對還是錯。1.0版本所考察的問題，是基于現有常識知識庫ConceptNet中的知識三元組建構的，這使得機器在處理該任務時，有能直接聚焦參考的知識。相比較1.0的“選擇題”，2.0“判斷題”挑戰難度更高，僅給定一個主題實體或概念、一個常識類關系（且關系不一定在現有知識庫出現），讓人類以自然語言的方式去構造機器較難掌握的常識知識。

該構造方法所構造的常識推理問題具有龐大的想象空間，大部分在目前知識庫中并未覆寫，無疑顯著增加了機器處理該類問題的難度。同時，該評測任務資料構造過程中，還通過人與機器不斷博弈對抗的方式，不斷疊代設計，最終确定的問題集合基本是目前主流算法都完成得不好的問題。

目前以科大訊飛為代表的中國人工智能力量在常識推理領域中已有很大的進步，但是仍遠低于人類94.1%的水準，可見在常識性推理方向仍有很大挑戰和進步空間。

CommonsenseQA 2.0任務問題示例

CommonsenseQA 2.0任務所覆寫的常識問題類型示例

科大訊飛提出ACROSS創新方法破解難題

在CommonsenseQA 2.0這項頗具挑戰的常識推理評測任務上，業界主流的中等大小預訓練模型方法也隻能取得55%的水準，略高于随機猜測平均水準。此前國際上該任務的最優方法，通過1750億級參數量大小的GPT3模型生成針對CommonsenseQA 2.0常識推理問題的相關知識，并基于T5模型進行融合處理，該方法取得了73%的準确率。

本次由科大訊飛承建的認知智能國家重點實驗室團隊創新提出的面向常識知識推理的ACROSS（Automatic Commonsense Reasoning on Semantic Spaces）模型，是繼2016年科大訊飛提出神經聯想模型NAM（Neural Association Model），并取得Winograd Schema Challenge冠軍後的又一力作。

該模型實作了統一語義空間下外部知識的有效融合，顯著改進了超大規模預訓練模型所存在的問題，在CommonsenseQA 2.0任務上取得76%的準确率。

該評測的常識推理問題，不論在ConceptNet等知識庫，或者網際網路上，都較難找到直接的答案。從人類進行常識知識運用及推理的習慣出發，對于一個複雜的問題，首先需要查閱相關知識庫或典籍，其次會借助網際網路搜尋去查找相關資訊。ACROSS模型正是借鑒該思路，充分收集知識庫、網際網路相關資訊，在統一的語義空間中進行融合處理，最後賦予超大規模預訓練模型更強的知識輸入，實作準确的常識知識推理。該方法結果也一定程度上證明了機器已初步具備對于各類複雜文本資訊及知識的深入了解及運用能力。

大陸在常識推理領域的技術攻堅還在繼續。

人工智能技術的下一步發展，必須要突破常識推理這一瓶頸，才能在教育、醫療、養老等國計民生場景中，讓人工智能産品更具備實用價值。

“讓機器能聽會說、能了解會思考”是清晰可預見的未來，科大訊飛求索未止。

雷峰網

科大訊飛解鎖常識推理新成就，讓機器“能了解會思考”

繼續閱讀

【意·調查】越來越多意大利學生使用人工智能做作業

梁建章：人工智能并沒有像移動網際網路具有颠覆性，人類還是會主導創新活動【附人工智能行業現狀分析】

金羊網評：人工智能高品質發展要算好三筆賬打好三套拳

單季淨賺 500 億，高管：騰訊将成為部署人工智能的「最大受益者」

人工智能熱席卷全球，AI概念闆塊誰是英雄？ | 年報研究專題

人工智能熱席卷全球，AI概念闆塊誰是英雄？ | 年報研究專題

生成式人工智能浪潮下，國外AI初創公司都在做什麼？

NetApp推出專為人工智能時代打造的統一資料存儲

生成式人工智能的風險與治理——以ChatGPT為例

GPT-4o：人工智能的全能革命

科大訊飛：聽見A1的聲音！助力聽障群體實作共享美好生活

AI到底有多可怕？人工智能繪畫Midjourney火了

劉澍泉對話周光:順應人工智能2.0，端到端讓自動駕駛更有“人味”

人工智能會搶走工作嗎？

航空航天的未來在AI？美國NASA任命首位首席人工智能官

人工智能與競争法規制路徑