引言
华山论剑,谁与争锋。简单介绍主流大模型的几个评测效果。
(1)华山论剑:“千模”大赛
这几个月,各种大语言模型纷纷推出,名字一个比一个霸气侧漏,千帆竞发,百舸争流,让人眼花缭乱。
简介
- 国外:OpenAI的ChatGPT和GPT-4独领风骚,离职员工组建创业公司,开发的Claude紧跟其后,接着Meta的“开源”模型LLaMA掀起小模型羊驼系列的进化浪潮,Bing得天独厚,激进推行产品落地,而昔日霸主谷歌欲哭无泪。
- 国内:大厂纷纷角力,文心、通义、星火、智脑等,还有高校机构,MOSS、ChatGLM、二郎神、悟道等等,有得匆匆内测、关停,有的宣讲会上放视频,有的现场DEMO,有的悄无声息。
(2)裁判员的苦恼
突然冒出这么多大模型,一时间让人不知所措:
- 有的人云亦云:国外吊打国内,无脑跟进国外大模型;
- 有的自卖自夸:功能比ChatGPT多,只有几个月差距;
- 有的大声吆喝:几个小模型“声称”达到ChatGPT/GPT-4的90+%;
- 有的格外谦虚:自家大模型效果很不好,持续改进。
作为理性派,脑子里本能涌出“十万个为什么”:
- 到底哪家好?
- 我该“钟意”哪个?
- 非要自己“随机”摸索?
- 用什么数据集?
- 评测方法科学吗?
- 是不是替人站台?
- 评测结果权威吗,有异议没?
有时候,选择太多也是一种痛苦。原因:
- 信息不对称:由于各种原因,呈现给我们的大多是局部信息,而且几经倒手、修饰,未必是本来面目。
- 选择困难症:面对众多选项,不明所以,陷入迷茫,随机摇摆。
- 决策方法:明确需求,制定目标,再去科学评估各个选项,这样的结论才更合适。别人眼里的好,不一定真的好,适合自己的才是“最好”的。
怎么办?获取更多客观、真实的信息,有助于缓解症状。
比如,亲自申请搭tizi,申请内测资格,斗智斗勇。然而
- 一方面资源受限,不是想测就能测的,付费也未必管用
- 另一方面,精力有限,专业度有限,并不能真正衡量各家大模型的水平。
那就找评测报告?尤其是第三方评测报告,差异越大越好,这样综合出来的信息更客观、准确,减少认知偏差。
(3)评测报告
国内外很多机构、个人都在想办法评测大模型。
(3.1)国际评测
先放眼全球,看看老外怎么评测。
(3.1.1)Huggingface
著名大模型开源社区Huggingface(抱抱脸)出品的排行榜:
Open LLM Leaderboard
- 参赛者:发布到Huggingface的开源大模型
- 数据集:使用4个公开英文数据集,
- AI2 Reasoning Challenge(25-shot)- 小学科学问题。
- HellaSwag(10-shot)- 测试常识推理,对人类来说很容易(~95%),但对最先进的模型来说却具有挑战性。
- MMLU(5-shot)- 多任务准确性测试, 覆盖57个任务,包括基础数学、美国历史、计算机科学、法律等。
- Truthful QA MC(0-shot)- 生成答案是否真实的测试基准。
- 最新榜单:
备注:
- 地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 截止时间:2023年6月5日
分析:
- 排名第一的是阿联酋阿布扎比的技术创新研究所(TII)开发的「Falcon」猎鹰,性能上LLaMA的表现更好。
- 第二、三是LLaMA系列,LLaMA是开源世界的霸主。
- 其它模型大多也是LLaMA的衍生品,如:alpaca、vicuna等等
问题:
- 这么多模型,没几个认识的。——没错,huggingface 排行榜只算开源模型,因而,看不到 GPT-4、ChatGPT。
- 都是英文,其它语言表现不明。
- 数据集静态,脱离现实,当然也就测出来新事物。
- 记分方法不明,估计是每道题同等重要(实际上题目有难易,类目之间也有难易)
(3.1.2)LMSYS
简单借用传统学术数据集来衡量大模型聊天效果,有些牵强:
- 评判聊天机器人效果,本身就非常主观,现有方法很难衡量。
- 大模型训练时几乎把整个互联网数据都扫了个遍,很难保证测试数据集没有看到。甚至用测试集直接对模型进行「特训」,提升效果。这些都属于显式或隐式作弊。
- 理论上可以和机器人聊任何事情,但很多话题/任务数据集里根本没有。
既然固定数据集测试问题多多,那有没有不依赖数据集的方法?
有,比如:
- 花钱请人给模型打分。OpenAI就是这么做的,只是慢且费钱。
于是,UC伯克利、UCSD、CMU团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场(Chatbot Arena)
相对于传统的基准评测方法,竞技场方法的优点:
- 可扩展性(Scalability): 可自由扩展尽可能多的模型。
- 增量性(Incrementality): 对数据没有强依赖,可用相对少的试验次数评估新模型。
- 唯一顺序(Unique order): 所有模型有唯一顺序。给定任意两个模型,判断哪个排名更高或相同。
具体怎么实现呢?借鉴竞技比赛的评分系统:Elo等级分制度(Elo rating system),计算玩家相对技能水平。原理省略,详见:https://wqw547243068.github.io/llm_eva#lmsys
回到正题:
- 参赛者:主流大模型
- 数据集:英文语料
- 评分方法:Elo评分,经过两两对战后,投票、统计
- 最新榜单:
备注:
- 地址:https://chat.lmsys.org/?arena
- 截止时间:2023年5月22日
分析:
- GPT-4(1225)>Claude-v1(1195)>Claude-instant-v1(1153)>ChatGPT(1143)>Vicuna-13B(1053)>。。。
- 国内出品的大模型中,RWKV-4-Raven-14B排名最高,但也只有12名,清华的ChatGLM是14名
问题:
- 有中文评测吗?
(3.2)国内评测
中文评测,还得中国人自己来做。
(3.2.1)InfoQ版评测报告
2023年5月29日,InfoQ发布《大语言模型综合能力评测报告》(原文私信公众号)
InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。
评价维度:
分成三类:基础、模型算法能力、安全和隐私
- 评分方式更好了,出现了大模型特有的“安全与隐私”
- 每个类别新增权重,区分了类目难易。
展开后,具体涉及10类,共300道题
参赛选手
评测结果
分析:终于看到了国内知名大模型
- ChatGPT>文心一言>Claude>讯飞星火>Sage>。。。
问题:
- 这个榜单看着似懂非懂,跟预期有些出入:文心这么厉害?ChatGPT才77分?
(3.2.2)新华社研究院
6月2日,国企(新华社)终于也开始测评大模型了。
参赛选手:
评测方法:传统做题,简单累加
4大类,36个子能力,累计300道题
- 基础能力:100道
- 智商测试:100道
- 情商测试:50道
- 工作提效:50道
评测结果:
- GPT-4(1246)>ChatGPT(1148)>文心一言(1112)>通义千问(1020)>星火(1010)>商量(967)>ChatGLM(943)>Vicuna-13B
分析:
- 文心雨ChatGPT距离变大,当然依旧是国内大模型佼佼者。
- 这个榜单新增了子类目得分
问题
- 数据集“黑盒”:是否适合大模型评测?具体有啥?我们看不到(当然新华社也未必愿意给,囧)
- 评测维度偏应用,缺乏技术层次的分析。毕竟是面向普罗大众的。
(3.2.3)SuperCLUE琅琊榜
5月9日,一家创业公司,仿照NLP评测领域国际标准SuperGLUE,推出中文通用数据集SuperCLUE,专门用于大模型评测。
SuperCLUE从三个维度评价模型能力:基础能力、专业能力和中文特性能力。
- 基础能力: 包括了常见的有代表性的模型能力,10项。
- 语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全
- 专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
- 抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等
- 中文特性能力: 针对有中文特点的任务,包括10项多种能力。
- 成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文
还首次采用全自动评测,谨慎起见,引入人工交叉复合。
评测方式上,跟LMSYS一样,借用Elo评级系统来计算模型的相对性能
截止2023年5月29日的榜单:
备注:地址,https://www.superclueai.com/
分析:有些“反常识”
- Claude(1215)超出ChatGPT(1171),国内新秀MiniMax(1188)也超出了
- 清华ChatGLM-130B(1163)趋近于ChatGPT,连ChatGLM-6B小模型也只是稍逊于ChatGPT
- 为啥没有文心、讯飞等国产大模型?有些敏感,情有可原。
(4)自研评测
以上评测方法各有千秋,但看了这么多,还是没能解决“十万个为什么”。
要不,我也构建一个小规模数据集,亲自评测下?这样的结论才更有说服力。
说干就干。
(4.1)评测方法
从实用主义出发,选取4个维度
- 基础能力:NLP常见的基础任务,这些指标有利于快速验证业务需求是否匹配
- 对话能力:一个好的对话系统涉及多方面的评测,除了知识问答,还有闲聊、多样性、一致性以及大模型特有的功能,如:角色扮演、道德约束、安全隐私、指令遵循等等。
- 应用功能:具体功能,工具类(写代码、做题),创作类(文案、邮件、写诗等),可以对付产品/业务的需求
- 工程实施:模型再好,不能落地也白搭
题目设计上,区分难易程度,同时对题目数目不敏感。
总分应该根据应用场景适配,用户可以自行配置大类、小类权重,进而得到更加合理、个性化的记分方案
记分方法:
- ① 每道题都有难度等级(5分制,3是常规)、评分(10分制,6分及格);
- ② 大类:基础、对话、功能以及工程,权重根据应用场景设置,按百分比分配
- ③ 小类:按对应题目统计总得分,单题分数=评分*难度/3
(4.2)评测数据集
考虑到自动评估方法(如GPT-4)的“不可控”,以及题目的灵活性,机器很难给出合适的打分,于是,单题打分只用人工!
代价就是耗费了大概2人3天的精力,从人工构建数据集,到挨个打分、校验,再到写代码统计、可视化。
每个大模型测试一遍耗费1-2h,评分耗费30分钟-1h。
数据集示例:约120道,4个大类,42个小类,每类大概1-10道题
(4.3)排行榜
参赛选手:ChatGPT、Claude-instant、文心一言、星火等,大约10个模型。
- 抱歉,没有GPT-4,因为穷啊
- 也没有New bing、BARD,因为精力耗费大
同时,为了体现公平性,引入人工作答,作为对比。
初步设置权重:
- 基础、功能各占30%,对话占40%,而工程 0%(先不看)
- 二级类目中,有些加权,如:逻辑推理、知识问答、创作等相对重要的能力。
conf_weight = {
"first":{"基础":0.3, "对话":0.4, "功能":0.3, "工程":0}, # 一级类目权重分配, 累加值 1(100分)
"second": { # 二级类目权重设置,0表示不考虑,1表示默认,不加权,>1表示提升权重,<1表示降低权重
"基础": {"分词":1, "专名识别":1, "语法分析":1, "纠错提示":1, "指代消解":1, "信息抽取":1,
"文本分类":1, "文本匹配":1, "文本生成":1, "文本聚类":1, "情感分析":1,
"阅读理解":2, "机器翻译":1, "文本摘要":2, "逻辑推理":3, "古文":1},
"对话": {"人设":1,"一致性":1,"多样性":1, "闲聊":1,"角色模拟":2, "情商":2, "自学习":1, "自知力":1, "记忆力":1,
"逻辑推理":2, "知识问答":2,"复合意图":1,"时效性":1, '思维链':1,"道德约束":1, "安全隐私":1, "指令遵循":2},
"功能": {"数学":2, "代码":2, "讲笑话":1, "创作":2, "数据分析":2, "表格":1, "画图":0, "视频":0, "语音":0},
"工程": {"配置":0, "推理性能":0}
}
}
一级类目权重:
最后得到总分及一级类目排名:
总分排名
各维度雷达图
详细数据
分析:中文理解上,与实际感知相仿。
- ChatGPT(80)遥遥领先,星火(70),Claude(68).
- 其次,文心与360智脑、通义千问、天工相仿
- 最后,开源模型系列,ChatGLM、Vicuna和BloomChat
除了总分、一级类目,还可以细分二级类目的排行榜。
(由于页面长度,42个子类只显示部分,全部结果请私信)
附录:
- 大模型评测专题:https://wqw547243068.github.io/llm_eva#%E8%87%AA%E7%A0%94%E6%96%B9%E6%A1%88
大模型评测不宜简单看排名,注意结合应用场景决策。按照业务功能选择测试功能集合,设置权重,累加打分后才是适合自己的评测。