引言

华山论剑，谁与争锋。简单介绍主流大模型的几个评测效果。

（1）华山论剑：“千模”大赛

这几个月，各种大语言模型纷纷推出，名字一个比一个霸气侧漏，千帆竞发，百舸争流，让人眼花缭乱。

简介

国外：OpenAI的ChatGPT和GPT-4独领风骚，离职员工组建创业公司，开发的Claude紧跟其后，接着Meta的“开源”模型LLaMA掀起小模型羊驼系列的进化浪潮，Bing得天独厚，激进推行产品落地，而昔日霸主谷歌欲哭无泪。
国内：大厂纷纷角力，文心、通义、星火、智脑等，还有高校机构，MOSS、ChatGLM、二郎神、悟道等等，有得匆匆内测、关停，有的宣讲会上放视频，有的现场DEMO，有的悄无声息。

（2）裁判员的苦恼

突然冒出这么多大模型，一时间让人不知所措：

有的人云亦云：国外吊打国内，无脑跟进国外大模型；
有的自卖自夸：功能比ChatGPT多，只有几个月差距；
有的大声吆喝：几个小模型“声称”达到ChatGPT/GPT-4的90+%；
有的格外谦虚：自家大模型效果很不好，持续改进。

作为理性派，脑子里本能涌出“十万个为什么”：

到底哪家好？
我该“钟意”哪个？
非要自己“随机”摸索？
用什么数据集？
评测方法科学吗？
是不是替人站台？
评测结果权威吗，有异议没？

有时候，选择太多也是一种痛苦。原因：

信息不对称：由于各种原因，呈现给我们的大多是局部信息，而且几经倒手、修饰，未必是本来面目。
选择困难症：面对众多选项，不明所以，陷入迷茫，随机摇摆。
决策方法：明确需求，制定目标，再去科学评估各个选项，这样的结论才更合适。别人眼里的好，不一定真的好，适合自己的才是“最好”的。

怎么办？获取更多客观、真实的信息，有助于缓解症状。

比如，亲自申请搭tizi，申请内测资格，斗智斗勇。然而

一方面资源受限，不是想测就能测的，付费也未必管用
另一方面，精力有限，专业度有限，并不能真正衡量各家大模型的水平。

那就找评测报告？尤其是第三方评测报告，差异越大越好，这样综合出来的信息更客观、准确，减少认知偏差。

（3）评测报告

国内外很多机构、个人都在想办法评测大模型。

（3.1）国际评测

先放眼全球，看看老外怎么评测。

（3.1.1）Huggingface

著名大模型开源社区Huggingface（抱抱脸）出品的排行榜：

Open LLM Leaderboard

参赛者：发布到Huggingface的开源大模型
数据集：使用4个公开英文数据集，

AI2 Reasoning Challenge（25-shot）- 小学科学问题。
HellaSwag（10-shot）- 测试常识推理，对人类来说很容易（~95%），但对最先进的模型来说却具有挑战性。
MMLU（5-shot）- 多任务准确性测试, 覆盖57个任务，包括基础数学、美国历史、计算机科学、法律等。
Truthful QA MC（0-shot）- 生成答案是否真实的测试基准。

最新榜单：

备注：

地址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
截止时间：2023年6月5日

分析：

排名第一的是阿联酋阿布扎比的技术创新研究所（TII）开发的「Falcon」猎鹰，性能上LLaMA的表现更好。
第二、三是LLaMA系列，LLaMA是开源世界的霸主。
其它模型大多也是LLaMA的衍生品，如：alpaca、vicuna等等

问题：

这么多模型，没几个认识的。——没错，huggingface 排行榜只算开源模型，因而，看不到 GPT-4、ChatGPT。
都是英文，其它语言表现不明。
数据集静态，脱离现实，当然也就测出来新事物。
记分方法不明，估计是每道题同等重要（实际上题目有难易，类目之间也有难易）

（3.1.2）LMSYS

简单借用传统学术数据集来衡量大模型聊天效果，有些牵强：

评判聊天机器人效果，本身就非常主观，现有方法很难衡量。
大模型训练时几乎把整个互联网数据都扫了个遍，很难保证测试数据集没有看到。甚至用测试集直接对模型进行「特训」，提升效果。这些都属于显式或隐式作弊。
理论上可以和机器人聊任何事情，但很多话题/任务数据集里根本没有。

既然固定数据集测试问题多多，那有没有不依赖数据集的方法？

有，比如：

花钱请人给模型打分。OpenAI就是这么做的，只是慢且费钱。

于是，UC伯克利、UCSD、CMU团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场（Chatbot Arena）

相对于传统的基准评测方法，竞技场方法的优点：

可扩展性（Scalability）: 可自由扩展尽可能多的模型。
增量性（Incrementality）: 对数据没有强依赖，可用相对少的试验次数评估新模型。
唯一顺序（Unique order）: 所有模型有唯一顺序。给定任意两个模型，判断哪个排名更高或相同。

具体怎么实现呢？借鉴竞技比赛的评分系统：Elo等级分制度（Elo rating system），计算玩家相对技能水平。原理省略，详见：https://wqw547243068.github.io/llm_eva#lmsys

回到正题：

参赛者：主流大模型
数据集：英文语料
评分方法：Elo评分，经过两两对战后，投票、统计
最新榜单：

备注：

地址：https://chat.lmsys.org/?arena
截止时间：2023年5月22日

分析：

GPT-4（1225）＞Claude-v1（1195）＞Claude-instant-v1（1153）＞ChatGPT（1143）＞Vicuna-13B（1053）＞。。。
国内出品的大模型中，RWKV-4-Raven-14B排名最高，但也只有12名，清华的ChatGLM是14名

问题：

有中文评测吗？

（3.2）国内评测

中文评测，还得中国人自己来做。

（3.2.1）InfoQ版评测报告

2023年5月29日，InfoQ发布《大语言模型综合能力评测报告》（原文私信公众号）

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法能力、安全和隐私四个大维度和 12 个细分维度，分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。

评价维度：

分成三类：基础、模型算法能力、安全和隐私

评分方式更好了，出现了大模型特有的“安全与隐私”
每个类别新增权重，区分了类目难易。

展开后，具体涉及10类，共300道题

参赛选手

评测结果

分析：终于看到了国内知名大模型

ChatGPT＞文心一言＞Claude＞讯飞星火＞Sage＞。。。

问题：

这个榜单看着似懂非懂，跟预期有些出入：文心这么厉害？ChatGPT才77分？

（3.2.2）新华社研究院

6月2日，国企（新华社）终于也开始测评大模型了。

参赛选手：

评测方法：传统做题，简单累加

4大类，36个子能力，累计300道题

基础能力：100道
智商测试：100道
情商测试：50道
工作提效：50道

评测结果：

GPT-4（1246）＞ChatGPT（1148）＞文心一言（1112）＞通义千问（1020）＞星火（1010）＞商量（967）＞ChatGLM（943）＞Vicuna-13B

分析：

文心雨ChatGPT距离变大，当然依旧是国内大模型佼佼者。
这个榜单新增了子类目得分

问题

数据集“黑盒”：是否适合大模型评测？具体有啥？我们看不到（当然新华社也未必愿意给，囧）
评测维度偏应用，缺乏技术层次的分析。毕竟是面向普罗大众的。

（3.2.3）SuperCLUE琅琊榜

5月9日，一家创业公司，仿照NLP评测领域国际标准SuperGLUE，推出中文通用数据集SuperCLUE，专门用于大模型评测。

SuperCLUE从三个维度评价模型能力：基础能力、专业能力和中文特性能力。

基础能力: 包括了常见的有代表性的模型能力，10项。

语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全

专业能力: 包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等

中文特性能力: 针对有中文特点的任务，包括10项多种能力。

成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文

还首次采用全自动评测，谨慎起见，引入人工交叉复合。

评测方式上，跟LMSYS一样，借用Elo评级系统来计算模型的相对性能

截止2023年5月29日的榜单：

备注：地址，https://www.superclueai.com/

分析：有些“反常识”

Claude（1215）超出ChatGPT（1171），国内新秀MiniMax（1188）也超出了
清华ChatGLM-130B（1163）趋近于ChatGPT，连ChatGLM-6B小模型也只是稍逊于ChatGPT
为啥没有文心、讯飞等国产大模型？有些敏感，情有可原。

（4）自研评测

以上评测方法各有千秋，但看了这么多，还是没能解决“十万个为什么”。

要不，我也构建一个小规模数据集，亲自评测下？这样的结论才更有说服力。

说干就干。

（4.1）评测方法

从实用主义出发，选取4个维度

基础能力：NLP常见的基础任务，这些指标有利于快速验证业务需求是否匹配
对话能力：一个好的对话系统涉及多方面的评测，除了知识问答，还有闲聊、多样性、一致性以及大模型特有的功能，如：角色扮演、道德约束、安全隐私、指令遵循等等。
应用功能：具体功能，工具类（写代码、做题），创作类（文案、邮件、写诗等），可以对付产品/业务的需求
工程实施：模型再好，不能落地也白搭

题目设计上，区分难易程度，同时对题目数目不敏感。

总分应该根据应用场景适配，用户可以自行配置大类、小类权重，进而得到更加合理、个性化的记分方案

记分方法：

① 每道题都有难度等级（5分制，3是常规）、评分（10分制，6分及格）；
② 大类：基础、对话、功能以及工程，权重根据应用场景设置，按百分比分配
③ 小类：按对应题目统计总得分，单题分数=评分*难度/3

（4.2）评测数据集

考虑到自动评估方法（如GPT-4）的“不可控”，以及题目的灵活性，机器很难给出合适的打分，于是，单题打分只用人工！

代价就是耗费了大概2人3天的精力，从人工构建数据集，到挨个打分、校验，再到写代码统计、可视化。

每个大模型测试一遍耗费1-2h，评分耗费30分钟-1h。

数据集示例：约120道，4个大类，42个小类，每类大概1-10道题

（4.3）排行榜

参赛选手：ChatGPT、Claude-instant、文心一言、星火等，大约10个模型。

抱歉，没有GPT-4，因为穷啊
也没有New bing、BARD，因为精力耗费大

同时，为了体现公平性，引入人工作答，作为对比。

初步设置权重：

基础、功能各占30%，对话占40%，而工程 0%（先不看）
二级类目中，有些加权，如：逻辑推理、知识问答、创作等相对重要的能力。

conf_weight = {
    "first":{"基础":0.3, "对话":0.4, "功能":0.3, "工程":0}, # 一级类目权重分配, 累加值 1（100分）
    "second": { # 二级类目权重设置，0表示不考虑，1表示默认，不加权，>1表示提升权重，<1表示降低权重
        "基础": {"分词":1, "专名识别":1, "语法分析":1, "纠错提示":1, "指代消解":1, "信息抽取":1, 
                  "文本分类":1, "文本匹配":1, "文本生成":1, "文本聚类":1, "情感分析":1, 
                  "阅读理解":2, "机器翻译":1, "文本摘要":2, "逻辑推理":3, "古文":1},
        "对话": {"人设":1,"一致性":1,"多样性":1, "闲聊":1,"角色模拟":2, "情商":2, "自学习":1, "自知力":1, "记忆力":1,
                  "逻辑推理":2, "知识问答":2,"复合意图":1,"时效性":1, '思维链':1,"道德约束":1, "安全隐私":1, "指令遵循":2},
        "功能": {"数学":2, "代码":2, "讲笑话":1, "创作":2, "数据分析":2, "表格":1, "画图":0, "视频":0, "语音":0},
        "工程": {"配置":0, "推理性能":0}
    }
}

一级类目权重：

最后得到总分及一级类目排名：

总分排名

各维度雷达图

详细数据

分析：中文理解上，与实际感知相仿。

ChatGPT（80）遥遥领先，星火（70），Claude（68）.
其次，文心与360智脑、通义千问、天工相仿
最后，开源模型系列，ChatGLM、Vicuna和BloomChat

除了总分、一级类目，还可以细分二级类目的排行榜。

（由于页面长度，42个子类只显示部分，全部结果请私信）

附录：

大模型评测专题：https://wqw547243068.github.io/llm_eva#%E8%87%AA%E7%A0%94%E6%96%B9%E6%A1%88

大模型评测不宜简单看排名，注意结合应用场景决策。按照业务功能选择测试功能集合，设置权重，累加打分后才是适合自己的评测。

千模大赛哪家强？大语言模型中文评测实践

Open LLM Leaderboard

继续阅读

Llama 3：开源大语言模型的下一个前沿

大语言模型的应用秘诀：如何通过高效的提示词掌控AI？

苹果又被曝大动作，自研设备端大语言模型，AI才是“重振雄风”新出路？

难怪之前传iPhone16系列国行版本AI功能将由百度提供，原来百度在中国人工智能发明专利企业排名中还是靠前的。排名前十

苹果发布OpenELM，基于开源训练和推理框架的高效语言模型

所罗门诺夫：大语言模型的先知

大语言模型部署：vLLM 与量化技术

苹果发高效语言模型 OpenELM；小米策划 15 万元新车；AI 成功改写人类 DNA|极客早知道

深度学习与化学语言模型结合，用于药物从头设计，登Nature子刊

属于各大科技公司的风口又来了！这次大语言模型引领“新工业革命

大语言模型落地为什么第一步是做客服

OpenAI推出全新大语言模型GPT-4o；苹果将在中国开售Vision Pro；软银几乎全部出售阿里股份

探索大语言模型：理解Self Attention| 京东物流技术团队

知识图与大型语言模型的协同作用

多功能RNA分析，百度团队的RNA语言模型登Nature子刊

参数少量提升，性能指数爆发！谷歌：大语言模型暗藏神秘技能

千模大赛哪家强？ 大语言模型中文评测实践

Open LLM Leaderboard

继续阅读

千模大赛哪家强？大语言模型中文评测实践