允中發自凹非寺

量子位 | 公衆号 QbitAI

2024年5月17日，智源研究院舉辦大模型評測釋出會，正式推出科學、權威、公正、開放的智源評測體系，釋出并解讀國内外140餘個開源和商業閉源的語言及多模态大模型全方位能力評測結果。

本次智源評測，分别從主觀、客觀兩個次元考察了語言模型的簡單了解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力；針對多模态模型則主要評估了多模态了解和生成能力。

在中文語境下，國内頭部語言模型的綜合表現已接近國際一流水準，但存在能力發展不均衡的情況。在多模态了解圖文問答任務上，開閉源模型平分秋色，國産模型表現突出。國産多模态模型在中文語境下的文生圖能力與國際一流水準差距較小。多模态模型的文生視訊能力上，對比各家公布的示範視訊長度和品質，Sora有明顯優勢，其他開放評測的文生視訊模型中，國産模型PixVerse表現優異。

由于安全與價值觀對齊是模型産業落地的關鍵，但海外模型與國内模型在該次元存在差異，是以語言模型主客觀評測的總體排名不計入該單項分數。語言模型主觀評測結果顯示，在中文語境下，位元組跳動豆包Skylark2、OpenAI GPT-4位居第一、第二，國産大模型更懂中國使用者。在語言模型客觀評測中，OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。

多模态了解模型客觀評測結果顯示，圖文問答方面，阿裡巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先後領先于OpenAI GPT-4，LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊随其後。

多模态生成模型文生圖評測結果顯示，OpenAI DALL-E3位列第一，智譜華章CogView3、Meta-Imagine分居第二、第三，百度文心一格、位元組跳動doubao-Image次之。多模态生成模型文生視訊評測結果顯示，OpenAI Sora、Runway、愛詩科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。

圖注：文生圖模型的客觀評測名額與主觀感受差異巨大，有失效的迹象，是以排名以主觀評測為準；Mdjourney基本無法了解中文提示詞，是以排名靠後；僅使用其官方公布的prompts和視訊片段與其他模型生成的視訊進行對比評測，評測結果存在一定的偏差。

首次聯合權威教育機構進行大模型K12學科測試

目前，大模型的發展具備了通用性，在邏輯推理能力上有顯著提升，日趨接近人腦的特征。是以，在海澱區教委支援下，智源研究院聯合與海澱區教師進修學校對齊學生測驗方式，考察大模型與人類學生的學科水準差異，其中，答案不唯一的主觀題，由海澱教師親自評卷。

智源評測發現，模型在綜合學科能力上與海澱學生平均水準仍有差距，普遍存在文強理弱的情況，并且對圖表的了解能力不足，大模型未來有很大的提升空間。

北京市海澱區教師進修學校校長姚守梅解讀大模型K12學科測試結果時指出，在國文、曆史等人文學科的考試中，模型欠缺對文字背後的文化内涵以及家國情懷的了解。面對曆史地理綜合題時，模型并不能像人類考生一樣有效識别學科屬性。相較于簡單的英語題，模型反而更擅長複雜的英語題。解理科題目時，模型會出現以超出年級知識範圍外的方法解題的情況。當出現無法了解的考題時，模型依然存在明顯的“幻覺”。

系統化建構文生視訊模型主觀評價體系

中國傳媒大學智能媒體計算實驗室負責人史萍教授表示，相較文本，視訊的主觀評價複雜度極高。自動化名額無法完全捕捉模型生成的品質，更無法對生成視訊的真實性、圖文語義一緻性等進行量化。是以，需要系統化建構針對文生視訊模型的主觀評價體系。

該評價體系，由智源研究院與中國傳媒大學基于雙方在大模型評測領域和視訊品質評價領域的豐富科研成果與實踐經驗共同建立，在圖文一緻性、真實性、視訊品質、美學品質四大方面給出多元度評分，為AIGC視訊生成技術的應用及發展提供參考。

科學權威公正開放的智源評測體系

依托科技部“人工智能基礎模型支撐平台與評測技術”和工信部“大模型公共服務平台”項目，智源研究院與10餘家高校和機構聯合開展大模型評測方法與工具研發。

2023年6月，由智源研究院與多個高校團隊共建的FlagEval大模型評測平台上線，迄今為止已完成了1000多次覆寫全球多個開源大模型的評測，并持續釋出評測結果，廣泛地積累了國際領先的評測技術。

智源研究院牽頭成立了IEEE大模型評測标準小組P3419，組織20餘家企業及學者參與大模型标準建設，同時作為《人工智能預訓練模型評測名額與方法》國家标準草案的共建機關，智源此次的模型評測，借鑒了該标準，采取了客觀評測統一規則與主觀評測多重校驗打分相結合的方法。其中，開源模型采用模型釋出方推薦的推理代碼及運作環境，對所有模型統一使用業界通用的提示語，不針對模型做提示語的優化。

本次智源評測使用20餘個資料集、超8萬道考題，包括與合作機關共建和智源自建的多個評測資料集，如中文多模态多題型了解及推理評測資料集CMMU、中文語義評測資料集C-SEM、中文語言及認知主觀評測集CLCC、面向複雜算法代碼生成任務的評測集TACO、文生圖主觀評測集Image-gen、多語言文生圖品質評測資料集MG18、文生視訊模型主觀評測集 CUC T2V prompts。其中，主觀題4000餘道，均來源于自建原創未公開并保持高頻疊代的主觀評測集，嚴格校準打分标準，采取多人獨立匿名評分、嚴格質檢與抽檢相結合的管理機制，降低主觀偏差的影響。此外，為了更準确地評測語言模型的各項能力，智源專門對所有客觀資料集的子資料集進行了能力标簽映射。

科學權威公正開放，是智源評測的最高綱領。智源研究院院長王仲遠表示，未來，智源将攜手生态合作夥伴繼續共建完善評測體系，促進模型性能的優化以及在多元複雜場景下的産業落地，推動大模型技術應用的有序發展。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿

國内外140+大模型、8萬+考題測評結果出爐！智源評測體系出品

首次聯合權威教育機構進行大模型K12學科測試

系統化建構文生視訊模型主觀評價體系

科學權威公正開放的智源評測體系

繼續閱讀

為什麼斯坦福大學生要抄襲中國大模型？

生成式AI手機應用普及加速！聯發科天玑晶片、模型、應用疾速驅動

多格式構件級模型組裝——看模王：靈活組合●創意無限

明明PC端的骁龍晶片不弱？為什麼很少廠商使用呢？如今性能直接對标蘋果M3的骁龍XElite一來，局面不僅改變，而且還進一

手機變模型機！寶山警方：君子愛财取之有道

深入了解大語言模型運維(LLMOps)

狠狠打臉！國産AI大模型遠比你想象的更強

10個國産大模型大戰聯考作文：用AI寫AI

12個國産大模型大戰聯考數學，意外炸出個大bug

中考數學最後一輪查漏補缺：輔助圓&隐圓&最值模型及其拓展應用

中考數學最後一輪查漏補缺：胡不歸模型及其拓展應用

中考數學最後一輪查漏補缺：瓜豆原理模型及其拓展應用

中考數學最後一輪查漏補缺：阿氏圓最值模型及其拓展應用

中考數學最後一輪查漏補缺：将軍飲馬模型及其拓展應用

中考數學最後一輪查漏補缺：費馬點模型及其拓展應用

推薦一個開放世界物體檢測模型：DINO 1.5