天天看點

大模型系列:LLM-Eval大模型評測理論簡述

作者:極客ai

關鍵詞:大語言模型,LLM

前言

随着越來越多的大語言模型被釋出和使用,如何對大模型的能力進行評測(LLM-Eval)成為一個新的課題,本篇對大模型評測的基礎知識做簡要綜述介紹。

内容摘要

  • 為什麼需要做大模型評測
  • 需要評測大模型的哪些能力
  • 如何評測大模型

為什麼需要做大模型評測

對大模型做評測的必要性來源于以下多方面原因:

  • 模型好壞的統一判斷标準:如果不建構一個客觀公正和定量的模型評測體系,則無法判斷衆多大模型之間的能力高低,使用者無法了解模型的真實能力和實際效果。
  • 模型疊代優化的依據:對于開發者而言,如果不能定量評估模型的能力,則無法跟蹤模型能力的變化,無法知道模型的優勢和劣勢,進而無法有針對的指定模型提升政策,影響模型的疊代更新。
  • 監管安全的要求考慮:對于法律、醫療等關乎社會安全的領域,需要對大模型進行系統的評測,以确認大模型适合在該領域進行使用,而不會造成安全事故。
  • 領域基礎模型的選擇依據:在不同的領域下,大模型的能力表現各有優劣,需要引入評測體系對大模型在各個領域下的能力進行統一測試,選擇出最适合該特定領域的大模型作為基座,進而更好的産業落地。
大模型系列:LLM-Eval大模型評測理論簡述

OpenCompass官網的模型定量評分

需要評測大模型的哪些能力

大模型評測大緻包含自然語言處理、知識能力、領域模型、對齊評測、安全性等多個方面,其中自然語言處理是相對簡單的的測評任務,包含NLU自然語言了解和NLG自然語言生成,NLU中包括情感分析、文本分類、資訊抽取等典型任務,NLG包括機器翻譯、自動摘要等任務。

大模型系列:LLM-Eval大模型評測理論簡述

大模型評測涉及内容

傳統的NLP任務大多是為了衡量特定且相對簡單的能力而設計的,而大型語言模型已經展示了各種新的能力,并将評估重點轉移到更一般和複雜的技能上,如廣泛的世界知識和複雜的推理。大模型在預訓練過程中吸收了海量資料的知識,是以需要對大模型的知識能力進行考量,相比于NLP任務,知識能力使得大模型更加接近一個智能體。

知識能力測評包含知識問答、邏輯推理、工具學習等方面,一般的通過Prompt提示語使得大模型回憶起在預訓練過程中學到的知識,來完成知識問答任務;CoT思維鍊的方式,能夠使得模型能夠逐漸思考,進而解決邏輯推理類的任務;工具學習(Tool Learning)的目标是讓大模型能夠根據人類的訓示和操作來使用工具,以解決特定任務,比如讓大模型調用搜尋引擎或者API,将搜尋傳回結果融合預訓練知識來增強答案生成。

大模型系列:LLM-Eval大模型評測理論簡述

工具增強學習的示意圖

相比于通識知識,垂直領域的知識能力對于産業落地更加重要,是以還存在各個垂直領域的知識測評,包括教育、醫療、金融、法律等大模型,該測評用于選擇合适的大模型作為垂直領域的模型基座。

額外的,除了NLP任務和知識能力,大模型回答内容的對齊性也在測評的範疇之内。對齊性是指大模型的回答需要符合人類價值觀和偏好。一般的,期望大模型的回答不能違背倫理道德,不能帶有偏見歧視等内容,另一方面需要測評大模型回答的真實性,防止生成不準确或缺乏事實精确性的内容,導緻該問題的原因可能在訓練資料集包含錯誤的細節、過時的事實,甚至是故意的錯誤資訊,進而損害了大語言模型的真實性。

最後還需要考察大模型的安全性,大模型不能生成有害的内容,同時需要具備一定的魯棒性,以防止故意向模型輸入一些微小的擾動,使得模型輸出有害的内容,給模型安全帶來威脅。

如何評測大模型

大模型評測分為客觀評測和主觀評測。客觀評測是有标準答案的,一般通過問答題、選擇題的形式輸入給大模型,讓大模型回答出答案和正确答案進行比對。

對于NLP任務,采用特定任務的評價名額來考量大模型,比如文本分類使用準确率,機器翻譯使用BLEU來打分。對于知識能力,通過做題的方式來考量大模型,形如中文評測資料集C-EVAL構造了多個垂直領域的選擇題,通過回答的正确率來評測大模型。另外對于Base模型和Chat模型,對于Base模型需要在Prompt中加入一定的範例,而Chat模型由于經過了指令微調和RLHF,一般直接采用對話的方式即可獲得模型輸出的答案。

大模型系列:LLM-Eval大模型評測理論簡述

C-EVAL資料集的問題分類

主觀評測一般使用在沒有标準答案的場景,比如讓多個大模型基于題目寫一篇作文,如何評價它們輸出的作文品質的高低,此時可以采用人工介入打分的方式,也可以引入一個裁判模型對這些作文進行打分。

全文完畢,後續将分享大模型測評資料集、大模型測評架構的使用和實踐。

繼續閱讀