天天看點

智源指數CUGE釋出,AI大模型有了評測新基準

人工智能大模型方興未艾,評測基準成為大模型發展的風向标。在北京智源人工智能研究院(以下簡稱“智源研究院”)近日舉行的自然語言處理(簡稱NLP)重大研究方向前沿技術開放日活動上,中文語言了解和生成的評測新基準——智源指數釋出。

智源指數CUGE釋出,AI大模型有了評測新基準

近些年來,英文評測基準GLUE等評測基準成為衡量大模型語言智能進展的重要标準,受到學界和業界的廣泛關注。但是,GLUE隻評測語言了解能力,而忽略語言生成、多語言、數學推理等重要語言能力;隻提供資料集得分和總體得分,并且總體得分容易受到少數資料集的主導。

從扁平到全面系統,從簡化到多重次元,智源指數CUGE旨在嘗試為大模型評測設計一張全面評估綜合能力的新考卷。

在基準架構上,智源指數不同于傳統将常用資料集扁平組織的方式,根據人類語言考試大綱和目前NLP研究現狀,以語言能力-任務-資料集的分層架構來選擇群組織資料集,涵蓋7種重要的語言能力、17個主流NLP任務和19個代表性資料集,全面均衡,避免“偏科選拔”。

在評分政策上,智源指數能更好展現模型不同次元的模型語言智能差異,依托層次性基準架構,提供不同層次的模型性能評分,包括在資料集、任務和語言能力等,系統性大大加強。

為了促進智源指數的共建共享,提升智源指數的易用性,本次活動還同時釋出了線上評測平台和公開排行榜,支援多種展示模式,包含綜合榜、精簡榜和單資料集榜,友善使用者快速多角度了解模型和資料集特性及最新動态。

釋出僅是起點,發展還需生态共建——清華大學副教授、智源青年科學家、智源指數建設骨幹成員劉知遠說:“基于單資料集的榜單能力,未來智源指數将定期吸納最新優秀資料集。同時,我們還将依托智源研究院、智源社群的力量,建立使用者面向資料集和評測結果的回報、讨論機制,建構起中文高品質資料集社群,推動中文自然語言處理的發展。”

在智源研究院的支援下,自然語言處理重大研究方向學者團隊積極探索自然語言處理新格局,通過大資料與富知識雙輪驅動,并通過與跨模态資訊進行互動,顯著提升以自然語言為核心的中文語義了解與生成能力。

落地應用方面,清華大學李涓子教授團隊建構的“多模态北京旅遊知識圖譜”可以為路徑規劃和景點資訊查詢等功能提供資料支援,為遊客進行旅遊行程的規劃。

清華大學教授、智源研究院自然語言處理(NLP)方向首席科學家孫茂松認為,目前NLP相關技術已經在語音識别、機器翻譯、同傳等方面有不少落地應用,下一步将走向更為深度的應用,NLP未來在金融、法律等領域的應用,是他眼中極具潛力的方向。

據悉,智源指數受到北京智源人工智能研究院的支援,工作委員機關由清華大學、北京大學、人民大學、中國科學院、北京語言大學、複旦大學、哈爾濱工業大學、上海交通大學、蘇州大學、大連理工大學、山西大學、京東研究院組成。

圖檔來源:智源研究院

繼續閱讀