克雷西發自凹非寺

量子位 | 公衆号 QbitAI

關于Llama 3，又有測試結果新鮮出爐——

大模型評測社群LMSYS釋出了一份大模型排行榜單，Llama 3位列第五，英文單項與GPT-4并列第一。

不同于其他Benchmark，這份榜單的依據是模型一對一battle，由全網測評者自行命題并打分。

最終，Llama 3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude 3超大杯Opus。

而在英文單項榜單中，Llama 3反超了Claude，與GPT-4打成了平手。

對于這一結果，Meta的首席科學家LeCun十分高興，轉發了推文并留下了一個“Nice”。

PyTorch之父Soumith Chintala也激動地表示，這樣的成果令人難以置信，對Meta感到驕傲。

Llama 3的400B版本還沒出來，單靠70B參數就獲得了第五名……

我還記得去年三月GPT-4釋出的時候，達到與之相同的表現幾乎是一件不可能的事。

……

現在AI的普及化實在是令人難以置信，我對Meta AI的同仁們做出這樣的成功感到非常驕傲。

那麼，這份榜單具體展示了什麼樣的結果呢？

近90個模型對戰75萬輪

截至最新榜單釋出，LMSYS共收集了近75萬次大模型solo對戰結果，涉及的模型達到了89款。

其中，Llama 3參與過的有1.27萬次，GPT-4則有多個不同版本，最多的參與了6.8萬次。

下面這張圖展示了部分熱門模型的比拼次數和勝率，圖中的兩項名額都沒有統計平局的次數。

榜單方面，LMSYS分成了總榜和多個子榜單，GPT-4-Turbo位列第一，與之并列的是早一些的1106版本，以及Claude 3超大杯Opus。

另一個版本（0125）的GPT-4則位列其後，緊接着就是Llama 3了。

不過比較有意思的是，較新一些的0125，表現還不如老版本1106。

而在英文單項榜單中，Llama 3的成績直接和兩款GPT-4打成了平手，還反超了0125版本。

中文能力排行榜的第一名則由Claude 3 Opus和GPT-4-1106共享，Llama 3則已經排到了20名開外。

除了語言能力之外，榜單中還設定了長文本和代碼能力排名，Llama 3也都名列前茅。

不過，LMSYS的“遊戲規則”又具體是什麼樣的呢？

人人都可參與的大模型評測

這是一個人人都可以參與的大模型測試，題目和評價标準，都由參與者自行決定。

而具體的“競技”過程，又分成了battle和side-by-side兩種模式。

battle模式下，在測試界面輸入好問題之後，系統會随機調用庫中的兩個模型，而測試者并不知道系統到底抽中了誰，界面中隻顯示“模型A”和“模型B”。

在模型輸出答案後，測評人需要選擇哪個更好，或者是平手，當然如果模型的表現都不符合預期，也有相應的選項。

隻有在做出選擇之後，模型的身份才會被揭開。

side-by-side則是由使用者選擇指定的模型來PK，其餘測試流程與battle模式相同

不過，隻有battle的匿名模式下的投票結果才會被統計，且在對話過程中模型不小心暴露身份就會導緻結果失效。

按照各個模型對其他模型的Win Rate，可以繪制出這樣的圖像：

△示意圖，較早版本

而最終的排行榜，是利用Win Rate資料，通過Elo評價系統換算成分數得到的。

Elo評價系統是一種計算玩家相對技能水準的方法，由美國實體學教授Arpad Elo設計。

具體到LMSYS，在初始條件下，所有模型的評分（R）都被設定為1000，然後根據這樣的公式計算出期待勝率（E）。

随着測試的不斷進行，會根據實際得分（S）對評分進行修正，S有1、0和0.5三種取值，分别對應獲勝、失敗和平手三種情況。

修正算法如下式所示，其中K為系數，需要測試者根據實際情況調整。

最終将所有有效資料納入計算後，就得到了模型的Elo評分。

不過實際操作過程中，LMSYS團隊發現這種算法的穩定性存在不足，于是又采用了統計學方法進行了修正。

他們利用Bootstrap方法進行重複采樣，得到了更穩定的結果，并估計了置信度區間。

最終修正後的Elo評分，就成了榜單中的排列依據。

One More Thing

Llama 3已經可以在大模型推理平台Groq（不是馬斯克的Grok）上跑了。

這個平台的最大亮點就是“快”，之前用Mixtral模型跑出過每秒近500 token的速度。

跑起Llama 3，也是相當迅速，實測70B可以跑到每秒約300 Token，8B版本更是接近了800。

參考連結：

[1]https://lmsys.org/blog/2023-05-03-arena/

[2]https://chat.lmsys.org/?leaderboard

[3]https://twitter.com/lmsysorg/status/1782483699449332144

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五

近90個模型對戰75萬輪

人人都可參與的大模型評測

One More Thing

繼續閱讀

五力模型，提升個人核心能力

卷瘋了！Meta AI釋出了最強開源大模型Llama 3，提供了8B和70B版?

怎麼用AI大模型解決實際問題？

大模型時代，資料中台現在過氣了嗎？

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型

有效溝通表達的13個模型

一天吃透一條産業鍊:NO.37 AI大模型産業鍊

10款國産大模型大戰弱智吧——中文了解能力測評

最全解讀MoE混合專家模型：揭秘關鍵技術與挑戰

全面超越！開源！百度最強SOTA：基于擴散模型的3DGS！

沖刺2024“半年紅” | 六成AI企業實作盈利增長，大模型企業賺錢了？