OpenAI曾秘密測試GPT-4o，登頂聊天機器人競技場排行榜

作者：IT之家 2024-05-14 18:15:00

IT之家 5 月 14 日消息，OpenAI 員工 William Fedus 周一在社交平台 X 證明，近期在 LMSYS 聊天機器人競技場 (Chatbot Arena) 上表現優異的神秘聊天機器人“gpt-chatbot”，正是他們剛剛釋出的全新人工智能模型 GPT-4o。Fedus 還透露，GPT-4o 在測試中登頂了競技場排行榜，取得了有史以來的最高分。

“GPT-4o 是我們最先進的尖端模型，”Fedus 在推特上寫道，“我們一直在競技場使用‘im-also-a-good-gpt2-chatbot’的名稱測試該模型的一個版本。”

聊天機器人競技場是一個網站，訪客可以同時與兩個随機的 AI 語言模型對話，卻不知道哪個是哪個，然後選擇提供更好回複的模型。

從今年 4 月份開始，OpenAI 在競技場測試了多個版本的 GPT-4o，該模型最初以“gpt2-chatbot” 的名稱出現，然後變成了“im-a-good-gpt2-chatbot”，最後是“im-also-a-good-gpt2-chatbot”。

自 GPT-4o 今日釋出以來，多方消息人士透露，該模型以巨大優勢登頂了 LMSYS 的内部排行榜，超越了之前排名最高的模型 Claude 3 Opus 和 GPT-4 Turbo。

lmsys.org 的官方賬号分享了一張圖表，并寫道：“‘gpt2-chatbot’系列模型剛剛飙升至榜首，以顯著的優勢（約 50 Elo）超越了所有其他模型，它已經成為競技場中最強大的模型。這是一張内部截圖，公開版本的‘gpt-4o’現已進入競技場，并很快将出現在公開排行榜上！”

截至IT之家發稿時，“im-also-a-good-gpt2-chatbot” 的 Elo 分數為 1309，領先于 GPT-4-Turbo-2023-04-09 的 1253 分和 Claude 3 Opus 的 1246 分。在三個“gpt2-chatbot” 出現并攪局之前，Claude 3 和 GPT-4 Turbo 一直在排行榜上争奪冠軍。

OpenAI曾秘密測試GPT-4o，登頂聊天機器人競技場排行榜

繼續閱讀

揍機器人，吸金10億！最“暴躁”老闆，為何總被吹爆？

OpenAI回應“封嘴”離職條款；滴滴程維：柳青升任永久合夥人，公司不再設總裁崗位；NetBSD禁止AI生成代碼 | 極客頭條

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

【産業網際網路周報】Kimi推出付費方案？月之暗面：小範圍灰階測試；示範文生圖時出現sleep代碼，華為回應造假嫌疑；Snowflake正洽談以超10億美元收購Reka AI

3999的雲鲸J4掃拖一體機器人：近日實付最低可達3199元

聊聊OpenAI最新釋出的GPT 4o

國内數智化程度最高、內建功能最全！中南院520海上勘測試驗平台在青傳遞

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

塑造未來能力：機器人和自主系統

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！

從商用服務到工業服務，普渡機器人先行一步

雲鲸逍遙智能掃地機器人001測評：聰明、省心、安靜

測試人的必修課！一文說透測試設計該怎麼做？

馬斯克霸氣提25%特斯拉股份要求，否則剝離AI和機器人技術

距離人形機器人進入家庭還有多遠？

iQOO 13系列依然”雙機齊發“ 6000mAh超大電池測試中