智源指數CUGE釋出，AI大模型有了評測新基準

2021-12-31 20:37:36

人工智能大模型方興未艾，評測基準成為大模型發展的風向标。在北京智源人工智能研究院（以下簡稱“智源研究院”）近日舉行的自然語言處理（簡稱NLP）重大研究方向前沿技術開放日活動上，中文語言了解和生成的評測新基準——智源指數釋出。

近些年來，英文評測基準GLUE等評測基準成為衡量大模型語言智能進展的重要标準，受到學界和業界的廣泛關注。但是，GLUE隻評測語言了解能力，而忽略語言生成、多語言、數學推理等重要語言能力；隻提供資料集得分和總體得分，并且總體得分容易受到少數資料集的主導。

從扁平到全面系統，從簡化到多重次元，智源指數CUGE旨在嘗試為大模型評測設計一張全面評估綜合能力的新考卷。

在基準架構上，智源指數不同于傳統将常用資料集扁平組織的方式，根據人類語言考試大綱和目前NLP研究現狀，以語言能力-任務-資料集的分層架構來選擇群組織資料集，涵蓋7種重要的語言能力、17個主流NLP任務和19個代表性資料集，全面均衡，避免“偏科選拔”。

在評分政策上，智源指數能更好展現模型不同次元的模型語言智能差異，依托層次性基準架構，提供不同層次的模型性能評分，包括在資料集、任務和語言能力等，系統性大大加強。

為了促進智源指數的共建共享，提升智源指數的易用性，本次活動還同時釋出了線上評測平台和公開排行榜，支援多種展示模式，包含綜合榜、精簡榜和單資料集榜，友善使用者快速多角度了解模型和資料集特性及最新動态。

釋出僅是起點，發展還需生态共建——清華大學副教授、智源青年科學家、智源指數建設骨幹成員劉知遠說：“基于單資料集的榜單能力，未來智源指數将定期吸納最新優秀資料集。同時，我們還将依托智源研究院、智源社群的力量，建立使用者面向資料集和評測結果的回報、讨論機制，建構起中文高品質資料集社群，推動中文自然語言處理的發展。”

在智源研究院的支援下，自然語言處理重大研究方向學者團隊積極探索自然語言處理新格局，通過大資料與富知識雙輪驅動，并通過與跨模态資訊進行互動，顯著提升以自然語言為核心的中文語義了解與生成能力。

落地應用方面，清華大學李涓子教授團隊建構的“多模态北京旅遊知識圖譜”可以為路徑規劃和景點資訊查詢等功能提供資料支援，為遊客進行旅遊行程的規劃。

清華大學教授、智源研究院自然語言處理（NLP）方向首席科學家孫茂松認為，目前NLP相關技術已經在語音識别、機器翻譯、同傳等方面有不少落地應用，下一步将走向更為深度的應用，NLP未來在金融、法律等領域的應用，是他眼中極具潛力的方向。

據悉，智源指數受到北京智源人工智能研究院的支援，工作委員機關由清華大學、北京大學、人民大學、中國科學院、北京語言大學、複旦大學、哈爾濱工業大學、上海交通大學、蘇州大學、大連理工大學、山西大學、京東研究院組成。

圖檔來源：智源研究院

智源指數CUGE釋出，AI大模型有了評測新基準

繼續閱讀

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行

李開複：預測到2027年人工智能将取代50%的工作