天天看点

千模大赛哪家强? 大语言模型中文评测实践

作者:鹤啸九天blog

引言

华山论剑,谁与争锋。简单介绍主流大模型的几个评测效果。

千模大赛哪家强? 大语言模型中文评测实践

(1)华山论剑:“千模”大赛

这几个月,各种大语言模型纷纷推出,名字一个比一个霸气侧漏,千帆竞发,百舸争流,让人眼花缭乱。

千模大赛哪家强? 大语言模型中文评测实践

简介

  • 国外:OpenAI的ChatGPT和GPT-4独领风骚,离职员工组建创业公司,开发的Claude紧跟其后,接着Meta的“开源”模型LLaMA掀起小模型羊驼系列的进化浪潮,Bing得天独厚,激进推行产品落地,而昔日霸主谷歌欲哭无泪。
  • 国内:大厂纷纷角力,文心、通义、星火、智脑等,还有高校机构,MOSS、ChatGLM、二郎神、悟道等等,有得匆匆内测、关停,有的宣讲会上放视频,有的现场DEMO,有的悄无声息。

(2)裁判员的苦恼

突然冒出这么多大模型,一时间让人不知所措:

  • 有的人云亦云:国外吊打国内,无脑跟进国外大模型;
  • 有的自卖自夸:功能比ChatGPT多,只有几个月差距;
  • 有的大声吆喝:几个小模型“声称”达到ChatGPT/GPT-4的90+%;
  • 有的格外谦虚:自家大模型效果很不好,持续改进。

作为理性派,脑子里本能涌出“十万个为什么”:

  • 到底哪家好?
  • 我该“钟意”哪个?
  • 非要自己“随机”摸索?
  • 用什么数据集?
  • 评测方法科学吗?
  • 是不是替人站台?
  • 评测结果权威吗,有异议没?

有时候,选择太多也是一种痛苦。原因:

  • 信息不对称:由于各种原因,呈现给我们的大多是局部信息,而且几经倒手、修饰,未必是本来面目。
  • 选择困难症:面对众多选项,不明所以,陷入迷茫,随机摇摆。
  • 决策方法:明确需求,制定目标,再去科学评估各个选项,这样的结论才更合适。别人眼里的好,不一定真的好,适合自己的才是“最好”的。

怎么办?获取更多客观、真实的信息,有助于缓解症状。

比如,亲自申请搭tizi,申请内测资格,斗智斗勇。然而

  • 一方面资源受限,不是想测就能测的,付费也未必管用
  • 另一方面,精力有限,专业度有限,并不能真正衡量各家大模型的水平。

那就找评测报告?尤其是第三方评测报告,差异越大越好,这样综合出来的信息更客观、准确,减少认知偏差。

(3)评测报告

国内外很多机构、个人都在想办法评测大模型。

(3.1)国际评测

先放眼全球,看看老外怎么评测。

(3.1.1)Huggingface

著名大模型开源社区Huggingface(抱抱脸)出品的排行榜:

Open LLM Leaderboard

  • 参赛者:发布到Huggingface的开源大模型
  • 数据集:使用4个公开英文数据集,
    • AI2 Reasoning Challenge(25-shot)- 小学科学问题。
    • HellaSwag(10-shot)- 测试常识推理,对人类来说很容易(~95%),但对最先进的模型来说却具有挑战性。
    • MMLU(5-shot)- 多任务准确性测试, 覆盖57个任务,包括基础数学、美国历史、计算机科学、法律等。
    • Truthful QA MC(0-shot)- 生成答案是否真实的测试基准。
  • 最新榜单:
千模大赛哪家强? 大语言模型中文评测实践

备注:

  • 地址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
  • 截止时间:2023年6月5日

分析:

  • 排名第一的是阿联酋阿布扎比的技术创新研究所(TII)开发的「Falcon」猎鹰,性能上LLaMA的表现更好。
  • 第二、三是LLaMA系列,LLaMA是开源世界的霸主。
  • 其它模型大多也是LLaMA的衍生品,如:alpaca、vicuna等等

问题:

  • 这么多模型,没几个认识的。——没错,huggingface 排行榜只算开源模型,因而,看不到 GPT-4、ChatGPT。
  • 都是英文,其它语言表现不明。
  • 数据集静态,脱离现实,当然也就测出来新事物。
  • 记分方法不明,估计是每道题同等重要(实际上题目有难易,类目之间也有难易)

(3.1.2)LMSYS

简单借用传统学术数据集来衡量大模型聊天效果,有些牵强:

  1. 评判聊天机器人效果,本身就非常主观,现有方法很难衡量。
  2. 大模型训练时几乎把整个互联网数据都扫了个遍,很难保证测试数据集没有看到。甚至用测试集直接对模型进行「特训」,提升效果。这些都属于显式或隐式作弊。
  3. 理论上可以和机器人聊任何事情,但很多话题/任务数据集里根本没有。

既然固定数据集测试问题多多,那有没有不依赖数据集的方法?

有,比如:

  • 花钱请人给模型打分。OpenAI就是这么做的,只是慢且费钱。

于是,UC伯克利、UCSD、CMU团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场(Chatbot Arena)

相对于传统的基准评测方法,竞技场方法的优点:

  • 可扩展性(Scalability): 可自由扩展尽可能多的模型。
  • 增量性(Incrementality): 对数据没有强依赖,可用相对少的试验次数评估新模型。
  • 唯一顺序(Unique order): 所有模型有唯一顺序。给定任意两个模型,判断哪个排名更高或相同。

具体怎么实现呢?借鉴竞技比赛的评分系统:Elo等级分制度(Elo rating system),计算玩家相对技能水平。原理省略,详见:https://wqw547243068.github.io/llm_eva#lmsys

回到正题:

  • 参赛者:主流大模型
  • 数据集:英文语料
  • 评分方法:Elo评分,经过两两对战后,投票、统计
  • 最新榜单:
千模大赛哪家强? 大语言模型中文评测实践

备注:

  • 地址:https://chat.lmsys.org/?arena
  • 截止时间:2023年5月22日

分析:

  • GPT-4(1225)>Claude-v1(1195)>Claude-instant-v1(1153)>ChatGPT(1143)>Vicuna-13B(1053)>。。。
  • 国内出品的大模型中,RWKV-4-Raven-14B排名最高,但也只有12名,清华的ChatGLM是14名

问题:

  • 有中文评测吗?

(3.2)国内评测

中文评测,还得中国人自己来做。

(3.2.1)InfoQ版评测报告

2023年5月29日,InfoQ发布《大语言模型综合能力评测报告》(原文私信公众号)

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。

评价维度:

分成三类:基础、模型算法能力、安全和隐私

  • 评分方式更好了,出现了大模型特有的“安全与隐私”
  • 每个类别新增权重,区分了类目难易。
千模大赛哪家强? 大语言模型中文评测实践

展开后,具体涉及10类,共300道题

千模大赛哪家强? 大语言模型中文评测实践

参赛选手

千模大赛哪家强? 大语言模型中文评测实践

评测结果

千模大赛哪家强? 大语言模型中文评测实践

分析:终于看到了国内知名大模型

  • ChatGPT>文心一言>Claude>讯飞星火>Sage>。。。

问题:

  • 这个榜单看着似懂非懂,跟预期有些出入:文心这么厉害?ChatGPT才77分?

(3.2.2)新华社研究院

6月2日,国企(新华社)终于也开始测评大模型了。

参赛选手:

千模大赛哪家强? 大语言模型中文评测实践

评测方法:传统做题,简单累加

4大类,36个子能力,累计300道题

  • 基础能力:100道
  • 智商测试:100道
  • 情商测试:50道
  • 工作提效:50道

评测结果:

  • GPT-4(1246)>ChatGPT(1148)>文心一言(1112)>通义千问(1020)>星火(1010)>商量(967)>ChatGLM(943)>Vicuna-13B
千模大赛哪家强? 大语言模型中文评测实践

分析:

  • 文心雨ChatGPT距离变大,当然依旧是国内大模型佼佼者。
  • 这个榜单新增了子类目得分

问题

  • 数据集“黑盒”:是否适合大模型评测?具体有啥?我们看不到(当然新华社也未必愿意给,囧)
  • 评测维度偏应用,缺乏技术层次的分析。毕竟是面向普罗大众的。

(3.2.3)SuperCLUE琅琊榜

5月9日,一家创业公司,仿照NLP评测领域国际标准SuperGLUE,推出中文通用数据集SuperCLUE,专门用于大模型评测。

SuperCLUE从三个维度评价模型能力:基础能力、专业能力和中文特性能力。

  • 基础能力: 包括了常见的有代表性的模型能力,10项。
    • 语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全
  • 专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
    • 抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等
  • 中文特性能力: 针对有中文特点的任务,包括10项多种能力。
    • 成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文

还首次采用全自动评测,谨慎起见,引入人工交叉复合。

评测方式上,跟LMSYS一样,借用Elo评级系统来计算模型的相对性能

截止2023年5月29日的榜单:

千模大赛哪家强? 大语言模型中文评测实践

备注:地址,https://www.superclueai.com/

分析:有些“反常识”

  • Claude(1215)超出ChatGPT(1171),国内新秀MiniMax(1188)也超出了
  • 清华ChatGLM-130B(1163)趋近于ChatGPT,连ChatGLM-6B小模型也只是稍逊于ChatGPT
  • 为啥没有文心、讯飞等国产大模型?有些敏感,情有可原。

(4)自研评测

以上评测方法各有千秋,但看了这么多,还是没能解决“十万个为什么”。

要不,我也构建一个小规模数据集,亲自评测下?这样的结论才更有说服力。

说干就干。

(4.1)评测方法

从实用主义出发,选取4个维度

  • 基础能力:NLP常见的基础任务,这些指标有利于快速验证业务需求是否匹配
  • 对话能力:一个好的对话系统涉及多方面的评测,除了知识问答,还有闲聊、多样性、一致性以及大模型特有的功能,如:角色扮演、道德约束、安全隐私、指令遵循等等。
  • 应用功能:具体功能,工具类(写代码、做题),创作类(文案、邮件、写诗等),可以对付产品/业务的需求
  • 工程实施:模型再好,不能落地也白搭
千模大赛哪家强? 大语言模型中文评测实践

题目设计上,区分难易程度,同时对题目数目不敏感。

总分应该根据应用场景适配,用户可以自行配置大类、小类权重,进而得到更加合理、个性化的记分方案

记分方法:

  • ① 每道题都有难度等级(5分制,3是常规)、评分(10分制,6分及格);
  • ② 大类:基础、对话、功能以及工程,权重根据应用场景设置,按百分比分配
  • ③ 小类:按对应题目统计总得分,单题分数=评分*难度/3
千模大赛哪家强? 大语言模型中文评测实践

(4.2)评测数据集

考虑到自动评估方法(如GPT-4)的“不可控”,以及题目的灵活性,机器很难给出合适的打分,于是,单题打分只用人工!

代价就是耗费了大概2人3天的精力,从人工构建数据集,到挨个打分、校验,再到写代码统计、可视化。

每个大模型测试一遍耗费1-2h,评分耗费30分钟-1h。

数据集示例:约120道,4个大类,42个小类,每类大概1-10道题

千模大赛哪家强? 大语言模型中文评测实践

(4.3)排行榜

参赛选手:ChatGPT、Claude-instant、文心一言、星火等,大约10个模型。

  • 抱歉,没有GPT-4,因为穷啊
  • 也没有New bing、BARD,因为精力耗费大

同时,为了体现公平性,引入人工作答,作为对比。

初步设置权重:

  • 基础、功能各占30%,对话占40%,而工程 0%(先不看)
  • 二级类目中,有些加权,如:逻辑推理、知识问答、创作等相对重要的能力。
conf_weight = {
    "first":{"基础":0.3, "对话":0.4, "功能":0.3, "工程":0}, # 一级类目权重分配, 累加值 1(100分)
    "second": { # 二级类目权重设置,0表示不考虑,1表示默认,不加权,>1表示提升权重,<1表示降低权重
        "基础": {"分词":1, "专名识别":1, "语法分析":1, "纠错提示":1, "指代消解":1, "信息抽取":1, 
                  "文本分类":1, "文本匹配":1, "文本生成":1, "文本聚类":1, "情感分析":1, 
                  "阅读理解":2, "机器翻译":1, "文本摘要":2, "逻辑推理":3, "古文":1},
        "对话": {"人设":1,"一致性":1,"多样性":1, "闲聊":1,"角色模拟":2, "情商":2, "自学习":1, "自知力":1, "记忆力":1,
                  "逻辑推理":2, "知识问答":2,"复合意图":1,"时效性":1, '思维链':1,"道德约束":1, "安全隐私":1, "指令遵循":2},
        "功能": {"数学":2, "代码":2, "讲笑话":1, "创作":2, "数据分析":2, "表格":1, "画图":0, "视频":0, "语音":0},
        "工程": {"配置":0, "推理性能":0}
    }
}           

一级类目权重:

千模大赛哪家强? 大语言模型中文评测实践

最后得到总分及一级类目排名:

总分排名

千模大赛哪家强? 大语言模型中文评测实践

各维度雷达图

千模大赛哪家强? 大语言模型中文评测实践

详细数据

千模大赛哪家强? 大语言模型中文评测实践

分析:中文理解上,与实际感知相仿。

  • ChatGPT(80)遥遥领先,星火(70),Claude(68).
  • 其次,文心与360智脑、通义千问、天工相仿
  • 最后,开源模型系列,ChatGLM、Vicuna和BloomChat

除了总分、一级类目,还可以细分二级类目的排行榜。

千模大赛哪家强? 大语言模型中文评测实践

(由于页面长度,42个子类只显示部分,全部结果请私信)

附录:

  • 大模型评测专题:https://wqw547243068.github.io/llm_eva#%E8%87%AA%E7%A0%94%E6%96%B9%E6%A1%88

大模型评测不宜简单看排名,注意结合应用场景决策。按照业务功能选择测试功能集合,设置权重,累加打分后才是适合自己的评测。

继续阅读