天天看點

千模大賽哪家強? 大語言模型中文評測實踐

作者:鶴嘯九天blog

引言

華山論劍,誰與争鋒。簡單介紹主流大模型的幾個評測效果。

千模大賽哪家強? 大語言模型中文評測實踐

(1)華山論劍:“千模”大賽

這幾個月,各種大語言模型紛紛推出,名字一個比一個霸氣側漏,千帆競發,百舸争流,讓人眼花缭亂。

千模大賽哪家強? 大語言模型中文評測實踐

簡介

  • 國外:OpenAI的ChatGPT和GPT-4獨領風騷,離職員工組建創業公司,開發的Claude緊跟其後,接着Meta的“開源”模型LLaMA掀起小模型羊駝系列的進化浪潮,Bing得天獨厚,激進推行産品落地,而昔日霸主谷歌欲哭無淚。
  • 國内:大廠紛紛角力,文心、通義、星火、智腦等,還有高校機構,MOSS、ChatGLM、二郎神、悟道等等,有得匆匆内測、關停,有的宣講會上放視訊,有的現場DEMO,有的悄無聲息。

(2)裁判員的苦惱

突然冒出這麼多大模型,一時間讓人不知所措:

  • 有的人雲亦雲:國外吊打國内,無腦跟進國外大模型;
  • 有的自賣自誇:功能比ChatGPT多,隻有幾個月差距;
  • 有的大聲吆喝:幾個小模型“聲稱”達到ChatGPT/GPT-4的90+%;
  • 有的格外謙虛:自家大模型效果很不好,持續改進。

作為理性派,腦子裡本能湧出“十萬個為什麼”:

  • 到底哪家好?
  • 我該“鐘意”哪個?
  • 非要自己“随機”摸索?
  • 用什麼資料集?
  • 評測方法科學嗎?
  • 是不是替人站台?
  • 評測結果權威嗎,有異議沒?

有時候,選擇太多也是一種痛苦。原因:

  • 資訊不對稱:由于各種原因,呈現給我們的大多是局部資訊,而且幾經倒手、修飾,未必是本來面目。
  • 選擇困難症:面對衆多選項,不明是以,陷入迷茫,随機搖擺。
  • 決策方法:明确需求,制定目标,再去科學評估各個選項,這樣的結論才更合适。别人眼裡的好,不一定真的好,适合自己的才是“最好”的。

怎麼辦?擷取更多客觀、真實的資訊,有助于緩解症狀。

比如,親自申請搭tizi,申請内測資格,鬥智鬥勇。然而

  • 一方面資源受限,不是想測就能測的,付費也未必管用
  • 另一方面,精力有限,專業度有限,并不能真正衡量各家大模型的水準。

那就找評測報告?尤其是第三方評測報告,差異越大越好,這樣綜合出來的資訊更客觀、準确,減少認知偏差。

(3)評測報告

國内外很多機構、個人都在想辦法評測大模型。

(3.1)國際評測

先放眼全球,看看老外怎麼評測。

(3.1.1)Huggingface

著名大模型開源社群Huggingface(抱抱臉)出品的排行榜:

Open LLM Leaderboard

  • 參賽者:釋出到Huggingface的開源大模型
  • 資料集:使用4個公開英文資料集,
    • AI2 Reasoning Challenge(25-shot)- 國小科學問題。
    • HellaSwag(10-shot)- 測試常識推理,對人類來說很容易(~95%),但對最先進的模型來說卻具有挑戰性。
    • MMLU(5-shot)- 多任務準确性測試, 覆寫57個任務,包括基礎數學、美國曆史、計算機科學、法律等。
    • Truthful QA MC(0-shot)- 生成答案是否真實的測試基準。
  • 最新榜單:
千模大賽哪家強? 大語言模型中文評測實踐

備注:

  • 位址:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
  • 截止時間:2023年6月5日

分析:

  • 排名第一的是阿聯酋阿布紮比的技術創新研究所(TII)開發的「Falcon」獵鷹,性能上LLaMA的表現更好。
  • 第二、三是LLaMA系列,LLaMA是開源世界的霸主。
  • 其它模型大多也是LLaMA的衍生品,如:alpaca、vicuna等等

問題:

  • 這麼多模型,沒幾個認識的。——沒錯,huggingface 排行榜隻算開源模型,因而,看不到 GPT-4、ChatGPT。
  • 都是英文,其它語言表現不明。
  • 資料集靜态,脫離現實,當然也就測出來新事物。
  • 記分方法不明,估計是每道題同等重要(實際上題目有難易,類目之間也有難易)

(3.1.2)LMSYS

簡單借用傳統學術資料集來衡量大模型聊天效果,有些牽強:

  1. 評判聊天機器人效果,本身就非常主觀,現有方法很難衡量。
  2. 大模型訓練時幾乎把整個網際網路資料都掃了個遍,很難保證測試資料集沒有看到。甚至用測試集直接對模型進行「特訓」,提升效果。這些都屬于顯式或隐式作弊。
  3. 理論上可以和機器人聊任何事情,但很多話題/任務資料集裡根本沒有。

既然固定資料集測試問題多多,那有沒有不依賴資料集的方法?

有,比如:

  • 花錢請人給模型打分。OpenAI就是這麼做的,隻是慢且費錢。

于是,UC伯克利、UCSD、CMU團隊發明了一種既好玩又實用的全新機制——聊天機器人競技場(Chatbot Arena)

相對于傳統的基準評測方法,競技場方法的優點:

  • 可擴充性(Scalability): 可自由擴充盡可能多的模型。
  • 增量性(Incrementality): 對資料沒有強依賴,可用相對少的試驗次數評估新模型。
  • 唯一順序(Unique order): 所有模型有唯一順序。給定任意兩個模型,判斷哪個排名更高或相同。

具體怎麼實作呢?借鑒競技比賽的評分系統:Elo等級分制度(Elo rating system),計算玩家相對技能水準。原理省略,詳見:https://wqw547243068.github.io/llm_eva#lmsys

回到正題:

  • 參賽者:主流大模型
  • 資料集:英文語料
  • 評分方法:Elo評分,經過兩兩對戰後,投票、統計
  • 最新榜單:
千模大賽哪家強? 大語言模型中文評測實踐

備注:

  • 位址:https://chat.lmsys.org/?arena
  • 截止時間:2023年5月22日

分析:

  • GPT-4(1225)>Claude-v1(1195)>Claude-instant-v1(1153)>ChatGPT(1143)>Vicuna-13B(1053)>。。。
  • 國内出品的大模型中,RWKV-4-Raven-14B排名最高,但也隻有12名,清華的ChatGLM是14名

問題:

  • 有中文評測嗎?

(3.2)國内評測

中文評測,還得中國人自己來做。

(3.2.1)InfoQ版評測報告

2023年5月29日,InfoQ釋出《大語言模型綜合能力評測報告》(原文私信公衆号)

InfoQ 研究中心選取語言模型準确性、資料基礎、模型和算法能力、安全和隐私四個大次元和 12 個細分次元,分别對ChatGPT、Claude、Sage、天工3.5、文心一言、通義千問、訊飛星火、Moss、ChatGLM、vicuna-13B進行了超過 3000+ 道題的評測。

評價次元:

分成三類:基礎、模型算法能力、安全和隐私

  • 評分方式更好了,出現了大模型特有的“安全與隐私”
  • 每個類别新增權重,區分了類目難易。
千模大賽哪家強? 大語言模型中文評測實踐

展開後,具體涉及10類,共300道題

千模大賽哪家強? 大語言模型中文評測實踐

參賽選手

千模大賽哪家強? 大語言模型中文評測實踐

評測結果

千模大賽哪家強? 大語言模型中文評測實踐

分析:終于看到了國内知名大模型

  • ChatGPT>文心一言>Claude>訊飛星火>Sage>。。。

問題:

  • 這個榜單看着似懂非懂,跟預期有些出入:文心這麼厲害?ChatGPT才77分?

(3.2.2)新華社研究院

6月2日,國企(新華社)終于也開始測評大模型了。

參賽選手:

千模大賽哪家強? 大語言模型中文評測實踐

評測方法:傳統做題,簡單累加

4大類,36個子能力,累計300道題

  • 基礎能力:100道
  • 智商測試:100道
  • 情商測試:50道
  • 工作提效:50道

評測結果:

  • GPT-4(1246)>ChatGPT(1148)>文心一言(1112)>通義千問(1020)>星火(1010)>商量(967)>ChatGLM(943)>Vicuna-13B
千模大賽哪家強? 大語言模型中文評測實踐

分析:

  • 文心雨ChatGPT距離變大,當然依舊是國内大模型佼佼者。
  • 這個榜單新增了子類目得分

問題

  • 資料集“黑盒”:是否适合大模型評測?具體有啥?我們看不到(當然新華社也未必願意給,囧)
  • 評測次元偏應用,缺乏技術層次的分析。畢竟是面向普羅大衆的。

(3.2.3)SuperCLUE琅琊榜

5月9日,一家創業公司,仿照NLP評測領域國際标準SuperGLUE,推出中文通用資料集SuperCLUE,專門用于大模型評測。

SuperCLUE從三個次元評價模型能力:基礎能力、專業能力和中文特性能力。

  • 基礎能力: 包括了常見的有代表性的模型能力,10項。
    • 語義了解、生成與創作、閑聊、對話、百科與知識、邏輯與推理、計算能力、代碼、角色模拟、安全
  • 專業能力: 包括了中學、大學與專業考試,涵蓋了從數學、實體、地理到社會科學等50多項能力。
    • 抽象代數、天文學、臨床知識、大學生物學、大學計算機科學、大學數學、高中化學、高中實體、機器學習、營養、專業會計、職業心理學等
  • 中文特性能力: 針對有中文特點的任務,包括10項多種能力。
    • 成語、詩詞、文學、字義了解、漢語句法分析、漢字字形和拼音了解、歇後語和諺語、對聯、方言、古文

還首次采用全自動評測,謹慎起見,引入人工交叉複合。

評測方式上,跟LMSYS一樣,借用Elo評級系統來計算模型的相對性能

截止2023年5月29日的榜單:

千模大賽哪家強? 大語言模型中文評測實踐

備注:位址,https://www.superclueai.com/

分析:有些“反常識”

  • Claude(1215)超出ChatGPT(1171),國内新秀MiniMax(1188)也超出了
  • 清華ChatGLM-130B(1163)趨近于ChatGPT,連ChatGLM-6B小模型也隻是稍遜于ChatGPT
  • 為啥沒有文心、訊飛等國産大模型?有些敏感,情有可原。

(4)自研評測

以上評測方法各有千秋,但看了這麼多,還是沒能解決“十萬個為什麼”。

要不,我也建構一個小規模資料集,親自評測下?這樣的結論才更有說服力。

說幹就幹。

(4.1)評測方法

從實用主義出發,選取4個次元

  • 基礎能力:NLP常見的基礎任務,這些名額有利于快速驗證業務需求是否比對
  • 對話能力:一個好的對話系統涉及多方面的評測,除了知識問答,還有閑聊、多樣性、一緻性以及大模型特有的功能,如:角色扮演、道德限制、安全隐私、指令遵循等等。
  • 應用功能:具體功能,工具類(寫代碼、做題),創作類(文案、郵件、寫詩等),可以對付産品/業務的需求
  • 工程實施:模型再好,不能落地也白搭
千模大賽哪家強? 大語言模型中文評測實踐

題目設計上,區分難易程度,同時對題目數目不敏感。

總分應該根據應用場景适配,使用者可以自行配置大類、小類權重,進而得到更加合理、個性化的記分方案

記分方法:

  • ① 每道題都有難度等級(5分制,3是正常)、評分(10分制,6分及格);
  • ② 大類:基礎、對話、功能以及工程,權重根據應用場景設定,按百分比配置設定
  • ③ 小類:按對應題目統計總得分,單題分數=評分*難度/3
千模大賽哪家強? 大語言模型中文評測實踐

(4.2)評測資料集

考慮到自動評估方法(如GPT-4)的“不可控”,以及題目的靈活性,機器很難給出合适的打分,于是,單題打分隻用人工!

代價就是耗費了大概2人3天的精力,從人工建構資料集,到挨個打分、校驗,再到寫代碼統計、可視化。

每個大模型測試一遍耗費1-2h,評分耗費30分鐘-1h。

資料集示例:約120道,4個大類,42個小類,每類大概1-10道題

千模大賽哪家強? 大語言模型中文評測實踐

(4.3)排行榜

參賽選手:ChatGPT、Claude-instant、文心一言、星火等,大約10個模型。

  • 抱歉,沒有GPT-4,因為窮啊
  • 也沒有New bing、BARD,因為精力耗費大

同時,為了展現公平性,引入人工作答,作為對比。

初步設定權重:

  • 基礎、功能各占30%,對話占40%,而工程 0%(先不看)
  • 二級類目中,有些權重,如:邏輯推理、知識問答、創作等相對重要的能力。
conf_weight = {
    "first":{"基礎":0.3, "對話":0.4, "功能":0.3, "工程":0}, # 一級類目權重配置設定, 累加值 1(100分)
    "second": { # 二級類目權重設定,0表示不考慮,1表示預設,不權重,>1表示提升權重,<1表示降低權重
        "基礎": {"分詞":1, "專名識别":1, "文法分析":1, "糾錯提示":1, "指代消解":1, "資訊抽取":1, 
                  "文本分類":1, "文本比對":1, "文本生成":1, "文本聚類":1, "情感分析":1, 
                  "閱讀了解":2, "機器翻譯":1, "文本摘要":2, "邏輯推理":3, "古文":1},
        "對話": {"人設":1,"一緻性":1,"多樣性":1, "閑聊":1,"角色模拟":2, "情商":2, "自學習":1, "自知力":1, "記憶力":1,
                  "邏輯推理":2, "知識問答":2,"複合意圖":1,"時效性":1, '思維鍊':1,"道德限制":1, "安全隐私":1, "指令遵循":2},
        "功能": {"數學":2, "代碼":2, "講笑話":1, "創作":2, "資料分析":2, "表格":1, "畫圖":0, "視訊":0, "語音":0},
        "工程": {"配置":0, "推理性能":0}
    }
}           

一級類目權重:

千模大賽哪家強? 大語言模型中文評測實踐

最後得到總分及一級類目排名:

總分排名

千模大賽哪家強? 大語言模型中文評測實踐

各次元雷達圖

千模大賽哪家強? 大語言模型中文評測實踐

詳細資料

千模大賽哪家強? 大語言模型中文評測實踐

分析:中文了解上,與實際感覺相仿。

  • ChatGPT(80)遙遙領先,星火(70),Claude(68).
  • 其次,文心與360智腦、通義千問、天工相仿
  • 最後,開源模型系列,ChatGLM、Vicuna和BloomChat

除了總分、一級類目,還可以細分二級類目的排行榜。

千模大賽哪家強? 大語言模型中文評測實踐

(由于頁面長度,42個子類隻顯示部分,全部結果請私信)

附錄:

  • 大模型評測專題:https://wqw547243068.github.io/llm_eva#%E8%87%AA%E7%A0%94%E6%96%B9%E6%A1%88

大模型評測不宜簡單看排名,注意結合應用場景決策。按照業務功能選擇測試功能集合,設定權重,累加打分後才是适合自己的評測。

繼續閱讀