夢晨發自凹非寺

量子位 | 公衆号 QbitAI

如果試題太簡單，學霸和學渣都能考90分，拉不開差距……

随着Claude 3、Llama 3甚至之後GPT-5等更強模型釋出，業界急需一款更難、更有區分度的基準測試。

大模型競技場背後組織LMSYS推出下一代基準測試Arena-Hard，引起廣泛關注。

Llama 3的兩個指令微調版本實力到底如何，也有了最新參考。

與之前大家分數都相近的MT Bench相比，Arena-Hard區分度從22.6%提升到87.4%，孰強孰弱一目了然。

Arena-Hard利用競技場實時人類資料建構，與人類偏好一緻率也高達89.1%。

除了上面兩個名額都達到SOTA之外，還有一個額外的好處：

實時更新的測試資料包含人類新想出的、AI在訓練階段從未見過的提示詞，減輕潛在的資料洩露。

并且新模型釋出後，無需再等待一周左右時間讓人類使用者參與投票，隻需花費25美元快速運作測試管線，即可得到結果。

有網友評價，使用真實使用者提示詞而不是高中考試來測試，真的很重要。

新基準測試如何運作？

簡單來說，通過大模型競技場20萬個使用者查詢中，挑選500個高品質提示詞作為測試集。

首先，挑選過程中確定多樣性，也就是測試集應涵蓋廣泛的現實世界話題。

為了確定這一點，團隊采用BERTopic中主題模組化管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉換每個提示，使用 UMAP 降低次元，并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識别聚類，最後使用GPT-4-turbo進行彙總。

同時確定入選的提示詞具有高品質，有七個關鍵名額來衡量：

具體性：提示詞是否要求特定的輸出？
領域知識：提示詞是否涵蓋一個或多個特定領域？
複雜性：提示詞是否有多層推理、組成部分或變量？
解決問題：提示詞是否直接讓AI展示主動解決問題的能力？
創造力：提示詞是否涉及解決問題的一定程度的創造力？
技術準确性：提示詞是否要求響應具有技術準确性？
實際應用：提示詞是否與實際應用相關？

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋，判斷滿足多少個條件。然後根據提示的平均得分給每個聚類評分。

高品質的問題通常與有挑戰性的話題或任務相關，比如遊戲開發或數學證明。

新基準測試準嗎？

Arena-Hard目前還有一個弱點：使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。

可以看出，最新兩個版本的GPT-4分數高過Claude 3 Opus一大截，但在人類投票分數中差距并沒有那麼明顯。

其實關于這一點，最近已經有研究論證，前沿模型都會偏好自己的輸出。

研究團隊還發現，AI天生就可以判斷出一段文字是不是自己寫的，經過微調後自我識别的能力還能增強，并且自我識别能力與自我偏好線性相關。

那麼使用Claude 3來打分會使結果産生什麼變化？LMSYS也做了相關實驗。

首先，Claude系列的分數确實會提高。

但令人驚訝的是，它更喜歡幾種開放模型如Mixtral和零一萬物Yi，甚至對GPT-3.5的評分都有明顯提高。

總體而言，使用Claude 3打分的區分度和與人類結果的一緻性都不如GPT-4。

是以也有很多網友建議，使用多個大模型來綜合打分。

除此之外，團隊還做了更多消融實驗來驗證新基準測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分數确實會提高。

但把提示詞換成“喜歡閑聊”，平均輸出長度也有提高，但分數提升就不明顯。

此外在實驗過程中還有很多有意思的發現。

比如GPT-4來打分非常嚴格，如果回答中有錯誤會狠狠扣分；而Claude 3即使識别出小錯誤也會寬大處理。

對于代碼問題，Claude 3傾向于提供簡單結構、不依賴外部代碼庫，能幫助人類學習程式設計的答案；而GPT-4-Turbo更傾向最實用的答案，不管其教育價值如何。

另外即使設定溫度為0，GPT-4-Turbo也可能産生略有不同的判斷。

從層次結構可視化的前64個聚類中也可以看出，大模型競技場使用者的提問品質和多樣性确實是高。

這裡面也許就有你的貢獻。

Arena-Hard GitHub：

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace：

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型競技場：

https://arena.lmsys.org

參考連結：

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04-19-arena-hard

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

新測試基準釋出，最強開源Llama 3分數驟降，差距拉開了

新基準測試如何運作？

新基準測試準嗎？

繼續閱讀

五哈團驚吓鄧超，超哥取關反擊？網友：這場友情測試太刺激了！

雷軍直播測試汽車時，疑似被惡意别車，副駕：有沒有一鍵舉報？

為闖過2000度高溫，中美，正加緊測試同款“防護罩”

關注|特斯拉被曝已起訴某千萬粉絲大V，疑因“緊急制動”測試造

卡西歐到底有多強？承重測試，碾壓墜落，哪怕送上太空也無損

耐久性測試還沒做完的小米SU7，就已經賣了倆月了？

雷軍邀請網紅阿飛測試SU7，高速遭惡意别車，阿飛的話顯高智商

Ryzen 7 7800X3D VS Core i9-14900K（啟用基線配置），遊戲測試出爐

小測試，測一測你度過餘生的人是誰？

心理測試：選擇一個會給你帶來好運的轉運珠，測誰會改變你的命運

心理測試：選擇一個果盤，測測你命中避不開的事情是什麼

【産業網際網路周報】Kimi推出付費方案？月之暗面：小範圍灰階測試；示範文生圖時出現sleep代碼，華為回應造假嫌疑；Snowflake正洽談以超10億美元收購Reka AI

國内數智化程度最高、內建功能最全！中南院520海上勘測試驗平台在青傳遞

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

測試人的必修課！一文說透測試設計該怎麼做？

iQOO 13系列依然”雙機齊發“ 6000mAh超大電池測試中