引言

華山論劍，誰與争鋒。簡單介紹主流大模型的幾個評測效果。

（1）華山論劍：“千模”大賽

這幾個月，各種大語言模型紛紛推出，名字一個比一個霸氣側漏，千帆競發，百舸争流，讓人眼花缭亂。

簡介

國外：OpenAI的ChatGPT和GPT-4獨領風騷，離職員工組建創業公司，開發的Claude緊跟其後，接着Meta的“開源”模型LLaMA掀起小模型羊駝系列的進化浪潮，Bing得天獨厚，激進推行産品落地，而昔日霸主谷歌欲哭無淚。
國内：大廠紛紛角力，文心、通義、星火、智腦等，還有高校機構，MOSS、ChatGLM、二郎神、悟道等等，有得匆匆内測、關停，有的宣講會上放視訊，有的現場DEMO，有的悄無聲息。

（2）裁判員的苦惱

突然冒出這麼多大模型，一時間讓人不知所措：

有的人雲亦雲：國外吊打國内，無腦跟進國外大模型；
有的自賣自誇：功能比ChatGPT多，隻有幾個月差距；
有的大聲吆喝：幾個小模型“聲稱”達到ChatGPT/GPT-4的90+%；
有的格外謙虛：自家大模型效果很不好，持續改進。

作為理性派，腦子裡本能湧出“十萬個為什麼”：

到底哪家好？
我該“鐘意”哪個？
非要自己“随機”摸索？
用什麼資料集？
評測方法科學嗎？
是不是替人站台？
評測結果權威嗎，有異議沒？

有時候，選擇太多也是一種痛苦。原因：

資訊不對稱：由于各種原因，呈現給我們的大多是局部資訊，而且幾經倒手、修飾，未必是本來面目。
選擇困難症：面對衆多選項，不明是以，陷入迷茫，随機搖擺。
決策方法：明确需求，制定目标，再去科學評估各個選項，這樣的結論才更合适。别人眼裡的好，不一定真的好，适合自己的才是“最好”的。

怎麼辦？擷取更多客觀、真實的資訊，有助于緩解症狀。

比如，親自申請搭tizi，申請内測資格，鬥智鬥勇。然而

一方面資源受限，不是想測就能測的，付費也未必管用
另一方面，精力有限，專業度有限，并不能真正衡量各家大模型的水準。

那就找評測報告？尤其是第三方評測報告，差異越大越好，這樣綜合出來的資訊更客觀、準确，減少認知偏差。

（3）評測報告

國内外很多機構、個人都在想辦法評測大模型。

（3.1）國際評測

先放眼全球，看看老外怎麼評測。

（3.1.1）Huggingface

著名大模型開源社群Huggingface（抱抱臉）出品的排行榜：

Open LLM Leaderboard

參賽者：釋出到Huggingface的開源大模型
資料集：使用4個公開英文資料集，

AI2 Reasoning Challenge（25-shot）- 國小科學問題。
HellaSwag（10-shot）- 測試常識推理，對人類來說很容易（~95%），但對最先進的模型來說卻具有挑戰性。
MMLU（5-shot）- 多任務準确性測試, 覆寫57個任務，包括基礎數學、美國曆史、計算機科學、法律等。
Truthful QA MC（0-shot）- 生成答案是否真實的測試基準。

最新榜單：

備注：

位址：https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
截止時間：2023年6月5日

分析：

排名第一的是阿聯酋阿布紮比的技術創新研究所（TII）開發的「Falcon」獵鷹，性能上LLaMA的表現更好。
第二、三是LLaMA系列，LLaMA是開源世界的霸主。
其它模型大多也是LLaMA的衍生品，如：alpaca、vicuna等等

問題：

這麼多模型，沒幾個認識的。——沒錯，huggingface 排行榜隻算開源模型，因而，看不到 GPT-4、ChatGPT。
都是英文，其它語言表現不明。
資料集靜态，脫離現實，當然也就測出來新事物。
記分方法不明，估計是每道題同等重要（實際上題目有難易，類目之間也有難易）

（3.1.2）LMSYS

簡單借用傳統學術資料集來衡量大模型聊天效果，有些牽強：

評判聊天機器人效果，本身就非常主觀，現有方法很難衡量。
大模型訓練時幾乎把整個網際網路資料都掃了個遍，很難保證測試資料集沒有看到。甚至用測試集直接對模型進行「特訓」，提升效果。這些都屬于顯式或隐式作弊。
理論上可以和機器人聊任何事情，但很多話題/任務資料集裡根本沒有。

既然固定資料集測試問題多多，那有沒有不依賴資料集的方法？

有，比如：

花錢請人給模型打分。OpenAI就是這麼做的，隻是慢且費錢。

于是，UC伯克利、UCSD、CMU團隊發明了一種既好玩又實用的全新機制——聊天機器人競技場（Chatbot Arena）

相對于傳統的基準評測方法，競技場方法的優點：

可擴充性（Scalability）: 可自由擴充盡可能多的模型。
增量性（Incrementality）: 對資料沒有強依賴，可用相對少的試驗次數評估新模型。
唯一順序（Unique order）: 所有模型有唯一順序。給定任意兩個模型，判斷哪個排名更高或相同。

具體怎麼實作呢？借鑒競技比賽的評分系統：Elo等級分制度（Elo rating system），計算玩家相對技能水準。原理省略，詳見：https://wqw547243068.github.io/llm_eva#lmsys

回到正題：

參賽者：主流大模型
資料集：英文語料
評分方法：Elo評分，經過兩兩對戰後，投票、統計
最新榜單：

備注：

位址：https://chat.lmsys.org/?arena
截止時間：2023年5月22日

分析：

GPT-4（1225）＞Claude-v1（1195）＞Claude-instant-v1（1153）＞ChatGPT（1143）＞Vicuna-13B（1053）＞。。。
國内出品的大模型中，RWKV-4-Raven-14B排名最高，但也隻有12名，清華的ChatGLM是14名

問題：

有中文評測嗎？

（3.2）國内評測

中文評測，還得中國人自己來做。

（3.2.1）InfoQ版評測報告

2023年5月29日，InfoQ釋出《大語言模型綜合能力評測報告》（原文私信公衆号）

InfoQ 研究中心選取語言模型準确性、資料基礎、模型和算法能力、安全和隐私四個大次元和 12 個細分次元，分别對ChatGPT、Claude、Sage、天工3.5、文心一言、通義千問、訊飛星火、Moss、ChatGLM、vicuna-13B進行了超過 3000+ 道題的評測。

評價次元：

分成三類：基礎、模型算法能力、安全和隐私

評分方式更好了，出現了大模型特有的“安全與隐私”
每個類别新增權重，區分了類目難易。

展開後，具體涉及10類，共300道題

參賽選手

評測結果

分析：終于看到了國内知名大模型

ChatGPT＞文心一言＞Claude＞訊飛星火＞Sage＞。。。

問題：

這個榜單看着似懂非懂，跟預期有些出入：文心這麼厲害？ChatGPT才77分？

（3.2.2）新華社研究院

6月2日，國企（新華社）終于也開始測評大模型了。

參賽選手：

評測方法：傳統做題，簡單累加

4大類，36個子能力，累計300道題

基礎能力：100道
智商測試：100道
情商測試：50道
工作提效：50道

評測結果：

GPT-4（1246）＞ChatGPT（1148）＞文心一言（1112）＞通義千問（1020）＞星火（1010）＞商量（967）＞ChatGLM（943）＞Vicuna-13B

分析：

文心雨ChatGPT距離變大，當然依舊是國内大模型佼佼者。
這個榜單新增了子類目得分

問題

資料集“黑盒”：是否适合大模型評測？具體有啥？我們看不到（當然新華社也未必願意給，囧）
評測次元偏應用，缺乏技術層次的分析。畢竟是面向普羅大衆的。

（3.2.3）SuperCLUE琅琊榜

5月9日，一家創業公司，仿照NLP評測領域國際标準SuperGLUE，推出中文通用資料集SuperCLUE，專門用于大模型評測。

SuperCLUE從三個次元評價模型能力：基礎能力、專業能力和中文特性能力。

基礎能力: 包括了常見的有代表性的模型能力，10項。

語義了解、生成與創作、閑聊、對話、百科與知識、邏輯與推理、計算能力、代碼、角色模拟、安全

專業能力: 包括了中學、大學與專業考試，涵蓋了從數學、實體、地理到社會科學等50多項能力。

抽象代數、天文學、臨床知識、大學生物學、大學計算機科學、大學數學、高中化學、高中實體、機器學習、營養、專業會計、職業心理學等

中文特性能力: 針對有中文特點的任務，包括10項多種能力。

成語、詩詞、文學、字義了解、漢語句法分析、漢字字形和拼音了解、歇後語和諺語、對聯、方言、古文

還首次采用全自動評測，謹慎起見，引入人工交叉複合。

評測方式上，跟LMSYS一樣，借用Elo評級系統來計算模型的相對性能

截止2023年5月29日的榜單：

備注：位址，https://www.superclueai.com/

分析：有些“反常識”

Claude（1215）超出ChatGPT（1171），國内新秀MiniMax（1188）也超出了
清華ChatGLM-130B（1163）趨近于ChatGPT，連ChatGLM-6B小模型也隻是稍遜于ChatGPT
為啥沒有文心、訊飛等國産大模型？有些敏感，情有可原。

（4）自研評測

以上評測方法各有千秋，但看了這麼多，還是沒能解決“十萬個為什麼”。

要不，我也建構一個小規模資料集，親自評測下？這樣的結論才更有說服力。

說幹就幹。

（4.1）評測方法

從實用主義出發，選取4個次元

基礎能力：NLP常見的基礎任務，這些名額有利于快速驗證業務需求是否比對
對話能力：一個好的對話系統涉及多方面的評測，除了知識問答，還有閑聊、多樣性、一緻性以及大模型特有的功能，如：角色扮演、道德限制、安全隐私、指令遵循等等。
應用功能：具體功能，工具類（寫代碼、做題），創作類（文案、郵件、寫詩等），可以對付産品/業務的需求
工程實施：模型再好，不能落地也白搭

題目設計上，區分難易程度，同時對題目數目不敏感。

總分應該根據應用場景适配，使用者可以自行配置大類、小類權重，進而得到更加合理、個性化的記分方案

記分方法：

① 每道題都有難度等級（5分制，3是正常）、評分（10分制，6分及格）；
② 大類：基礎、對話、功能以及工程，權重根據應用場景設定，按百分比配置設定
③ 小類：按對應題目統計總得分，單題分數=評分*難度/3

（4.2）評測資料集

考慮到自動評估方法（如GPT-4）的“不可控”，以及題目的靈活性，機器很難給出合适的打分，于是，單題打分隻用人工！

代價就是耗費了大概2人3天的精力，從人工建構資料集，到挨個打分、校驗，再到寫代碼統計、可視化。

每個大模型測試一遍耗費1-2h，評分耗費30分鐘-1h。

資料集示例：約120道，4個大類，42個小類，每類大概1-10道題

（4.3）排行榜

參賽選手：ChatGPT、Claude-instant、文心一言、星火等，大約10個模型。

抱歉，沒有GPT-4，因為窮啊
也沒有New bing、BARD，因為精力耗費大

同時，為了展現公平性，引入人工作答，作為對比。

初步設定權重：

基礎、功能各占30%，對話占40%，而工程 0%（先不看）
二級類目中，有些權重，如：邏輯推理、知識問答、創作等相對重要的能力。

conf_weight = {
    "first":{"基礎":0.3, "對話":0.4, "功能":0.3, "工程":0}, # 一級類目權重配置設定, 累加值 1（100分）
    "second": { # 二級類目權重設定，0表示不考慮，1表示預設，不權重，>1表示提升權重，<1表示降低權重
        "基礎": {"分詞":1, "專名識别":1, "文法分析":1, "糾錯提示":1, "指代消解":1, "資訊抽取":1, 
                  "文本分類":1, "文本比對":1, "文本生成":1, "文本聚類":1, "情感分析":1, 
                  "閱讀了解":2, "機器翻譯":1, "文本摘要":2, "邏輯推理":3, "古文":1},
        "對話": {"人設":1,"一緻性":1,"多樣性":1, "閑聊":1,"角色模拟":2, "情商":2, "自學習":1, "自知力":1, "記憶力":1,
                  "邏輯推理":2, "知識問答":2,"複合意圖":1,"時效性":1, '思維鍊':1,"道德限制":1, "安全隐私":1, "指令遵循":2},
        "功能": {"數學":2, "代碼":2, "講笑話":1, "創作":2, "資料分析":2, "表格":1, "畫圖":0, "視訊":0, "語音":0},
        "工程": {"配置":0, "推理性能":0}
    }
}

一級類目權重：

最後得到總分及一級類目排名：

總分排名

各次元雷達圖

詳細資料

分析：中文了解上，與實際感覺相仿。

ChatGPT（80）遙遙領先，星火（70），Claude（68）.
其次，文心與360智腦、通義千問、天工相仿
最後，開源模型系列，ChatGLM、Vicuna和BloomChat

除了總分、一級類目，還可以細分二級類目的排行榜。

（由于頁面長度，42個子類隻顯示部分，全部結果請私信）

附錄：

大模型評測專題：https://wqw547243068.github.io/llm_eva#%E8%87%AA%E7%A0%94%E6%96%B9%E6%A1%88

大模型評測不宜簡單看排名，注意結合應用場景決策。按照業務功能選擇測試功能集合，設定權重，累加打分後才是适合自己的評測。

千模大賽哪家強？大語言模型中文評測實踐

Open LLM Leaderboard

繼續閱讀

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

參數少量提升，性能指數爆發！谷歌：大語言模型暗藏神秘技能

千模大賽哪家強？ 大語言模型中文評測實踐

Open LLM Leaderboard

繼續閱讀

千模大賽哪家強？大語言模型中文評測實踐