天天看點

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

作者:新智元

編輯:好困 Aeneas

【新智元導讀】備受關注的UC伯克利LLM排位賽又更新了!GPT-4依然巋然不動穩居榜首,GPT-3.5緊随其後,團隊自家新釋出的330億參數Vicuna則沖至第五,代表了一衆開源模型的最好成績。

就在剛剛,UC伯克利主導的「LLM排位賽」迎來了首次重磅更新!

這次,團隊不僅在排行榜中加入了更多模型(目前已達到28個),而且還增加了2個全新的評價标準。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

與此同時,團隊還釋出了更新的Vicuna-v1.3系列模型,參數量為70億、130億和330億,且權重已公開。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

項目位址:https://github.com/lm-sys/FastChat/tree/main#vicuna-weights

在全新的評價系統下,GPT-4依然穩居第一,而GPT-3.5則成功奪回了第二的寶座。

Anthropic的兩款Claude模型緊随其後,排在了第三和第四的位置上。

UC伯克利最新釋出的330億參數Vicuna進軍第五,小幅領先微軟華人團隊開源的300億參數WizardLM模型。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

增強版LLM排行榜

不難看出,GPT-3.5、Claude-v1和Claude-instant-v1這三個模型之間實際難分伯仲。不僅在MT-bench得分上咬得很緊,而且在諸如Elo和MMLU得分上還有後者還有反超。

和這些專有模型相比,開源模型們則有着明顯的差距,即便是作為開源第一的Vicuna-33B也是如此。

當然,事情總有例外。比如谷歌的PaLM2,就落後于一衆開源模型。

全新評價機制:MT-bench

雖然,現在已經有了不少用來評估大語言模型(LLM)性能的基準測試,比如MMLU、HellaSwag和HumanEval等。

但是,在評估LLM的人類偏好時,這些基準測試存在着明顯的不足。

舉個例子,傳統的基準測試通常是在封閉式問題(例如,多項選擇題)上對LLM進行測試,并提供一些簡潔的輸出作為評價。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

使用者與LLaMA-13B和Vicuna-13B之間的多輪對話,開始是MMLU基準中的問題和後續指令,然後将GPT-4與上下文一起呈現,比較誰的答案更好

顯然,大部分人在實踐中并不是這麼用聊天機器人的……

為了填補這一空白,來自UC伯克利的團隊在這次排行榜更新中,除了Chatbot Arena Elo系統之外,還增加了一個新的基準測試:MT-bench。

MT-Bench可以作為對聊天機器人競技場的品質控制補充。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

論文位址:https://arxiv.org/pdf/2306.05685.pdf

目前,競技場的具體評價機制如下:

1. Chatbot Arena Elo,基于Chatbot Arena收到的42,000個匿名投票,并使用Elo評級系統進行評分。

2. MT-Bench得分,基于一個具有挑戰性的多輪基準測試和GPT-4評分,其方法在「Judging LLM-as-a-judge」論文中提出,并已經過驗證。

3. MMLU,一項廣泛采用的基準測試。

為什麼選擇MT-Bench?

具體來說,MT-Bench是一個經過精心設計的基準測試,包含80個高品質的多輪問題。

這些問題可以評估模型在多輪對話中的對話流程和指令遵循能力,其中包含了常見的使用情景,以及富有挑戰性的指令。

通過對過去2個月營運聊天機器人競技場以及對收集的一部分使用者資料的分析,團隊确定了8個主要的類别:寫作、角色扮演、提取、推理、數學、程式設計、知識I(科學技術工程數學)和知識II(人文社科)。

其中,每個類别有10個多輪問題,總共160個問題。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

MT-Bench中的問題示例

用LLM評判LLM

那麼問題來了,我們應該如何對聊天機器人的答案進行評分呢?

盡管在針對LLM的評估中,人類的偏好可以說是「黃金标準」,但收集人類偏好的這一過程,卻非常耗時,而且成本極高。

相比之下,UC伯克利主導的團隊在一開始便探索出了一種基于GPT-4的自動化評估管線。而這種方法也随後在幾個工作中,得到了廣泛的采用。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

此外,團隊還在最新的論文「Judging LLM-as-a-judge」中進行了一項系統研究——揭示了LLM評判者的可靠性問題。

結果顯示,像GPT-4這樣強大的LLM評判者,可以與專家組和衆包組的人類裁判的偏好非常好地對齊,一緻性均超過了80%。

這種一緻性水準,已經可以和兩個人類評判者之間的一緻性相媲美。

而基于GPT-4的單個答案評分,也可以有效地對模型進行排名,并與人類偏好很好地比對。

是以,如果使用得當,LLM評判者完全可以作為人類偏好的可擴充、可解釋的近似值。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

不過,當LLM作為評判者時,依然會存在一些潛在限制:

1. 位置偏差,即LLM評判者可能偏向于在成對比較中選擇第一個答案。

2. 冗長偏差,即LLM評判者可能偏向于更長的回答,而不考慮其品質。

3. 自我增強偏差,即LLM評判者可能偏向于自己的回答。

4. 推理能力有限,即LLM評判者在給數學和推理問題打分時,會存在一些缺陷。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

不同LLM評判者的立場偏見

其中,所謂的「一緻性」是指評判者在LLM順序交換時,給出一緻性結果的案例百分比

對于這些限制,團隊探讨了如何利用少樣本評判、思維鍊評判、基于參考的評判和微調評判來進行緩解。

結果分析

MT-Bench有效地區分了LLM之間的性能差異

在這次的「排位賽」中,團隊針對28個模型進行了全面評估。

結果顯示,不同能力的LLM之間存在明顯的差別,而它們的得分與Chatbot Arena Elo評分呈高度的相關性。

特别是MT-Bench的引入,非常鮮明地顯示出:GPT-4與GPT-3.5/Claude之間,以及開源和專有模型之間,有着明顯的性能差距。

為了更深入地了解LLM之間的差距,團隊選擇了幾個有代表性的LLM,并分析了它們在每個類别下的表現。

結果顯示,與GPT-3.5/Claude相比,GPT-4在編碼和推理方面表現出更高的性能,而Vicuna-13B在幾個特定的類别中(包括提取、編碼和數學)明顯落後。

這表明,開源模型仍有很大的改進空間。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

比較6個模型的8種能力:寫作、角色扮演、推理、數學、編碼、資訊提取、自然科學、人文科學

多輪對話能力的評估

團隊接下來分析了所選模型在多輪對話中的得分。

開源模型在第一輪和第二輪之間的性能顯著下降(如Vicuna-7B,WizardLM-13B),而強大的專有模型卻始終保持着一緻性。

另外,基于LLaMA的模型和更寬松的模型之間(如MPT-7B、Falcon-40B和調整後的Open-LLaMA),也存在明顯的性能差距。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

模型在第一輪和第二輪對話中的MT-bench得分,滿分為10分

LLM評判者的可解釋性

用LLM進行評判的另一個優勢在于,它們能夠提供可解釋的評估結果。

下圖展示了GPT-4對一個MT-bench問題的判斷,其中包括了來自alpaca-13b和gpt-3.5-turbo的回答。

可以看到,對于自己給出的判斷,GPT-4提供了詳細全面、邏輯清晰的回報。

而UC伯克利的研究也認為,這種評價有利于指導人類做出更明智的決策。

LLM排行榜首次更新!GPT-4居榜首,330億參數小羊駝位列開源第一

MT-bench在評估LLM的人類偏好方面提供了更多的可解釋性

總之,MT-Bench可以有效地區分不同的聊天機器人。

不過在使用時,仍然應該謹慎。因為它還是有出錯的可能,尤其是在數學/推理問題打分時。

下一步計劃

釋出對話資料

團隊計劃釋出Chatbot Arena的對話資料,以供更廣泛的研究社群使用,敬請期待。

MT-bench-1K

目前,團隊正在積極擴充問題集,将Chatbot Arena的高品質提示內建進來,并利用LLM自動生成新的問題,進而建立更豐富的MT-Bench-1K資料集。

參考資料:

https://lmsys.org/blog/2023-06-22-leaderboard/

繼續閱讀