關鍵詞：大語言模型，LLM

前言

随着越來越多的大語言模型被釋出和使用，如何對大模型的能力進行評測（LLM-Eval）成為一個新的課題，本篇對大模型評測的基礎知識做簡要綜述介紹。

内容摘要

為什麼需要做大模型評測
需要評測大模型的哪些能力
如何評測大模型

為什麼需要做大模型評測

對大模型做評測的必要性來源于以下多方面原因：

模型好壞的統一判斷标準：如果不建構一個客觀公正和定量的模型評測體系，則無法判斷衆多大模型之間的能力高低，使用者無法了解模型的真實能力和實際效果。
模型疊代優化的依據：對于開發者而言，如果不能定量評估模型的能力，則無法跟蹤模型能力的變化，無法知道模型的優勢和劣勢，進而無法有針對的指定模型提升政策，影響模型的疊代更新。
監管安全的要求考慮：對于法律、醫療等關乎社會安全的領域，需要對大模型進行系統的評測，以确認大模型适合在該領域進行使用，而不會造成安全事故。
領域基礎模型的選擇依據：在不同的領域下，大模型的能力表現各有優劣，需要引入評測體系對大模型在各個領域下的能力進行統一測試，選擇出最适合該特定領域的大模型作為基座，進而更好的産業落地。

OpenCompass官網的模型定量評分

需要評測大模型的哪些能力

大模型評測大緻包含自然語言處理、知識能力、領域模型、對齊評測、安全性等多個方面，其中自然語言處理是相對簡單的的測評任務，包含NLU自然語言了解和NLG自然語言生成，NLU中包括情感分析、文本分類、資訊抽取等典型任務，NLG包括機器翻譯、自動摘要等任務。

大模型評測涉及内容

傳統的NLP任務大多是為了衡量特定且相對簡單的能力而設計的，而大型語言模型已經展示了各種新的能力，并将評估重點轉移到更一般和複雜的技能上，如廣泛的世界知識和複雜的推理。大模型在預訓練過程中吸收了海量資料的知識，是以需要對大模型的知識能力進行考量，相比于NLP任務，知識能力使得大模型更加接近一個智能體。

知識能力測評包含知識問答、邏輯推理、工具學習等方面，一般的通過Prompt提示語使得大模型回憶起在預訓練過程中學到的知識，來完成知識問答任務；CoT思維鍊的方式，能夠使得模型能夠逐漸思考，進而解決邏輯推理類的任務；工具學習（Tool Learning）的目标是讓大模型能夠根據人類的訓示和操作來使用工具，以解決特定任務，比如讓大模型調用搜尋引擎或者API，将搜尋傳回結果融合預訓練知識來增強答案生成。

工具增強學習的示意圖

相比于通識知識，垂直領域的知識能力對于産業落地更加重要，是以還存在各個垂直領域的知識測評，包括教育、醫療、金融、法律等大模型，該測評用于選擇合适的大模型作為垂直領域的模型基座。

額外的，除了NLP任務和知識能力，大模型回答内容的對齊性也在測評的範疇之内。對齊性是指大模型的回答需要符合人類價值觀和偏好。一般的，期望大模型的回答不能違背倫理道德，不能帶有偏見歧視等内容，另一方面需要測評大模型回答的真實性，防止生成不準确或缺乏事實精确性的内容，導緻該問題的原因可能在訓練資料集包含錯誤的細節、過時的事實，甚至是故意的錯誤資訊，進而損害了大語言模型的真實性。

最後還需要考察大模型的安全性，大模型不能生成有害的内容，同時需要具備一定的魯棒性，以防止故意向模型輸入一些微小的擾動，使得模型輸出有害的内容，給模型安全帶來威脅。

如何評測大模型

大模型評測分為客觀評測和主觀評測。客觀評測是有标準答案的，一般通過問答題、選擇題的形式輸入給大模型，讓大模型回答出答案和正确答案進行比對。

對于NLP任務，采用特定任務的評價名額來考量大模型，比如文本分類使用準确率，機器翻譯使用BLEU來打分。對于知識能力，通過做題的方式來考量大模型，形如中文評測資料集C-EVAL構造了多個垂直領域的選擇題，通過回答的正确率來評測大模型。另外對于Base模型和Chat模型，對于Base模型需要在Prompt中加入一定的範例，而Chat模型由于經過了指令微調和RLHF，一般直接采用對話的方式即可獲得模型輸出的答案。

C-EVAL資料集的問題分類

主觀評測一般使用在沒有标準答案的場景，比如讓多個大模型基于題目寫一篇作文，如何評價它們輸出的作文品質的高低，此時可以采用人工介入打分的方式，也可以引入一個裁判模型對這些作文進行打分。

全文完畢，後續将分享大模型測評資料集、大模型測評架構的使用和實踐。

大模型系列：LLM-Eval大模型評測理論簡述

前言

内容摘要

為什麼需要做大模型評測

需要評測大模型的哪些能力

如何評測大模型

繼續閱讀

百度首款文心大模型學習機 Z30 開售，8G +256G 售 6694 元

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora

大模型競賽，中美科技巨頭為何卷向不同方向？

跳水專家，直降1500元！三星S24系列三款機型最低3999元入手

vivo S19系列手機釋出：輕薄影像旗艦，2499元起

貨源充足 Pura70系列居然有優惠了！

是顔值黨更是“耐摔王”，OPPO Reno12系列機身内外都是亮點

618買新機？超美小直屏OPPO Reno12系列值得考慮

超美小直屏OPPO Reno12系列今日開售，2699元起售

vivo S19系列釋出，售價2499元起

iQOO Pad2 / Pro 系列平闆電腦售價 2499 元 / 3299 元起

vivoS19系列釋出！輕薄長續航，“超強影像”拍人更清晰好看！

華為Pura70系列供貨相當穩定管道開始降價

OPPO Reno12系列正式開售！超美小直屏2699元起

OPPO Reno12系列正式開售：以舊換新至高補貼1200元

蘋果 iPhone 16/Pro 系列手機殼首曝！果然多個洞