編輯：好困 Aeneas

【新智元導讀】備受關注的UC伯克利LLM排位賽又更新了！GPT-4依然巋然不動穩居榜首，GPT-3.5緊随其後，團隊自家新釋出的330億參數Vicuna則沖至第五，代表了一衆開源模型的最好成績。

就在剛剛，UC伯克利主導的「LLM排位賽」迎來了首次重磅更新！

這次，團隊不僅在排行榜中加入了更多模型（目前已達到28個），而且還增加了2個全新的評價标準。

與此同時，團隊還釋出了更新的Vicuna-v1.3系列模型，參數量為70億、130億和330億，且權重已公開。

項目位址：https://github.com/lm-sys/FastChat/tree/main#vicuna-weights

在全新的評價系統下，GPT-4依然穩居第一，而GPT-3.5則成功奪回了第二的寶座。

Anthropic的兩款Claude模型緊随其後，排在了第三和第四的位置上。

UC伯克利最新釋出的330億參數Vicuna進軍第五，小幅領先微軟華人團隊開源的300億參數WizardLM模型。

增強版LLM排行榜

不難看出，GPT-3.5、Claude-v1和Claude-instant-v1這三個模型之間實際難分伯仲。不僅在MT-bench得分上咬得很緊，而且在諸如Elo和MMLU得分上還有後者還有反超。

和這些專有模型相比，開源模型們則有着明顯的差距，即便是作為開源第一的Vicuna-33B也是如此。

當然，事情總有例外。比如谷歌的PaLM2，就落後于一衆開源模型。

全新評價機制：MT-bench

雖然，現在已經有了不少用來評估大語言模型（LLM）性能的基準測試，比如MMLU、HellaSwag和HumanEval等。

但是，在評估LLM的人類偏好時，這些基準測試存在着明顯的不足。

舉個例子，傳統的基準測試通常是在封閉式問題（例如，多項選擇題）上對LLM進行測試，并提供一些簡潔的輸出作為評價。

使用者與LLaMA-13B和Vicuna-13B之間的多輪對話，開始是MMLU基準中的問題和後續指令，然後将GPT-4與上下文一起呈現，比較誰的答案更好

顯然，大部分人在實踐中并不是這麼用聊天機器人的……

為了填補這一空白，來自UC伯克利的團隊在這次排行榜更新中，除了Chatbot Arena Elo系統之外，還增加了一個新的基準測試：MT-bench。

MT-Bench可以作為對聊天機器人競技場的品質控制補充。

論文位址：https://arxiv.org/pdf/2306.05685.pdf

目前，競技場的具體評價機制如下：

1. Chatbot Arena Elo，基于Chatbot Arena收到的42,000個匿名投票，并使用Elo評級系統進行評分。

2. MT-Bench得分，基于一個具有挑戰性的多輪基準測試和GPT-4評分，其方法在「Judging LLM-as-a-judge」論文中提出，并已經過驗證。

3. MMLU，一項廣泛采用的基準測試。

為什麼選擇MT-Bench？

具體來說，MT-Bench是一個經過精心設計的基準測試，包含80個高品質的多輪問題。

這些問題可以評估模型在多輪對話中的對話流程和指令遵循能力，其中包含了常見的使用情景，以及富有挑戰性的指令。

通過對過去2個月營運聊天機器人競技場以及對收集的一部分使用者資料的分析，團隊确定了8個主要的類别：寫作、角色扮演、提取、推理、數學、程式設計、知識I（科學技術工程數學）和知識II（人文社科）。

其中，每個類别有10個多輪問題，總共160個問題。

MT-Bench中的問題示例

用LLM評判LLM

那麼問題來了，我們應該如何對聊天機器人的答案進行評分呢？

盡管在針對LLM的評估中，人類的偏好可以說是「黃金标準」，但收集人類偏好的這一過程，卻非常耗時，而且成本極高。

相比之下，UC伯克利主導的團隊在一開始便探索出了一種基于GPT-4的自動化評估管線。而這種方法也随後在幾個工作中，得到了廣泛的采用。

此外，團隊還在最新的論文「Judging LLM-as-a-judge」中進行了一項系統研究——揭示了LLM評判者的可靠性問題。

結果顯示，像GPT-4這樣強大的LLM評判者，可以與專家組和衆包組的人類裁判的偏好非常好地對齊，一緻性均超過了80%。

這種一緻性水準，已經可以和兩個人類評判者之間的一緻性相媲美。

而基于GPT-4的單個答案評分，也可以有效地對模型進行排名，并與人類偏好很好地比對。

是以，如果使用得當，LLM評判者完全可以作為人類偏好的可擴充、可解釋的近似值。

不過，當LLM作為評判者時，依然會存在一些潛在限制：

1. 位置偏差，即LLM評判者可能偏向于在成對比較中選擇第一個答案。

2. 冗長偏差，即LLM評判者可能偏向于更長的回答，而不考慮其品質。

3. 自我增強偏差，即LLM評判者可能偏向于自己的回答。

4. 推理能力有限，即LLM評判者在給數學和推理問題打分時，會存在一些缺陷。

不同LLM評判者的立場偏見

其中，所謂的「一緻性」是指評判者在LLM順序交換時，給出一緻性結果的案例百分比

對于這些限制，團隊探讨了如何利用少樣本評判、思維鍊評判、基于參考的評判和微調評判來進行緩解。

結果分析

MT-Bench有效地區分了LLM之間的性能差異

在這次的「排位賽」中，團隊針對28個模型進行了全面評估。

結果顯示，不同能力的LLM之間存在明顯的差別，而它們的得分與Chatbot Arena Elo評分呈高度的相關性。

特别是MT-Bench的引入，非常鮮明地顯示出：GPT-4與GPT-3.5/Claude之間，以及開源和專有模型之間，有着明顯的性能差距。

為了更深入地了解LLM之間的差距，團隊選擇了幾個有代表性的LLM，并分析了它們在每個類别下的表現。

結果顯示，與GPT-3.5/Claude相比，GPT-4在編碼和推理方面表現出更高的性能，而Vicuna-13B在幾個特定的類别中（包括提取、編碼和數學）明顯落後。

這表明，開源模型仍有很大的改進空間。

比較6個模型的8種能力：寫作、角色扮演、推理、數學、編碼、資訊提取、自然科學、人文科學

多輪對話能力的評估

團隊接下來分析了所選模型在多輪對話中的得分。

開源模型在第一輪和第二輪之間的性能顯著下降（如Vicuna-7B，WizardLM-13B），而強大的專有模型卻始終保持着一緻性。

另外，基于LLaMA的模型和更寬松的模型之間（如MPT-7B、Falcon-40B和調整後的Open-LLaMA），也存在明顯的性能差距。

模型在第一輪和第二輪對話中的MT-bench得分，滿分為10分

LLM評判者的可解釋性

用LLM進行評判的另一個優勢在于，它們能夠提供可解釋的評估結果。

下圖展示了GPT-4對一個MT-bench問題的判斷，其中包括了來自alpaca-13b和gpt-3.5-turbo的回答。

可以看到，對于自己給出的判斷，GPT-4提供了詳細全面、邏輯清晰的回報。

而UC伯克利的研究也認為，這種評價有利于指導人類做出更明智的決策。

MT-bench在評估LLM的人類偏好方面提供了更多的可解釋性

總之，MT-Bench可以有效地區分不同的聊天機器人。

不過在使用時，仍然應該謹慎。因為它還是有出錯的可能，尤其是在數學/推理問題打分時。

下一步計劃

釋出對話資料

團隊計劃釋出Chatbot Arena的對話資料，以供更廣泛的研究社群使用，敬請期待。

MT-bench-1K

目前，團隊正在積極擴充問題集，将Chatbot Arena的高品質提示內建進來，并利用LLM自動生成新的問題，進而建立更豐富的MT-Bench-1K資料集。

參考資料：

https://lmsys.org/blog/2023-06-22-leaderboard/

LLM排行榜首次更新！GPT-4居榜首，330億參數小羊駝位列開源第一

【新智元導讀】備受關注的UC伯克利LLM排位賽又更新了！GPT-4依然巋然不動穩居榜首，GPT-3.5緊随其後，團隊自家新釋出的330億參數Vicuna則沖至第五，代表了一衆開源模型的最好成績。

繼續閱讀

網友養了一隻小橘貓，卻越長大越奇怪…這是貓駝？網友養了2隻小橘子，其中一隻越長大越奇怪…而且别的孩子在玩的時候，它就端坐

現在很多商場裡面都設了一個動物公園，有的叫做萌寵館，養了像羊駝、倉鼠、寵物狗和貓、孔雀等這些小動物，吸引了很多小孩來把玩

#京山農場#京山農場營地陽光明媚、天氣正好，溜孔雀，逗羊駝，喂鴿子，騎馬，開越野車，放風筝，總有一項适合你，另外現場還有

真是狗來富，店門口跑來一隻流浪狗，馄饨店的生意就變得異常火爆

趙本山戲中的“老伴”關婷娜住豪宅喂羊駝！身穿白色睡衣

趙本山戲中的“老伴”關婷娜住豪宅喂羊駝！穿睡衣大秀豐滿事業線

趙本山戲中的女演員關婷娜住豪宅養羊駝網友驚歎驚人行為和事業線

光影消博 | 來認識消博會上的“酷羊駝”

39歲關婷娜住豪宅喂羊駝！穿睡衣大秀豐滿事業線，皮膚白皙狀态好

39歲關婷娜豪宅喂羊駝！穿睡衣大秀豐滿事業線，不愧是人間尤物

39歲關婷娜住豪宅喂羊駝！皮膚白皙狀态好，穿睡衣大秀豐滿事業線

趙本山“禦用老伴”關婷娜，在豪宅内養羊駝，穿低領睡衣身材豐腴

39歲關婷娜住家宅喂羊駝！穿睡衣大秀豐滿事業線，皮膚白皙狀态好

趙本山“禦用老伴”關婷娜豪宅内悠閑養羊駝，盡顯優雅從容

趙本山禦用老伴關婷娜豪宅養羊駝，炫的是自己的富，戳了網友的心

引發熱議“愛寵人士談寵物有望上高鐵，狗狗可以羊駝不行！”