OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

這裡所有文章均來自微信公衆号“火星AIGC”，本文作者：開山怪。想要看到更多更新的AI前沿資訊、AI資訊和AI工具實操，請關注微信公衆号“火星AIGC”。

在lmsys.org上最近出現了一個神秘模型 GPT 2 ，經過我個人測試以及網上專業人士的回報，其輸出品質驚人的高，其性能不在最新版的 ChatGPT4-Turbo 之下。讓人懷疑它實際上就是 ChatGPT4.5 模型。

我前面文章介紹過 chat.lmsys.org。這是加州大學和卡内基梅隆大學合作推出的AI大模型公開測試平台，無需登入免費使用。使用者能夠與各種大語言模型聊天并評價他們的輸出。

可免費使用33個AI大模型的lmsys.org，包括GPT4和Claude3

這個神秘的 gpt2-chatbot 模型所展示的性能遠遠超出了任何已知的 GPT-4 之前的模型。它可以在 LMSYS 中的“直接聊天”中聊天，也可以在“競技場（戰鬥）”中聊天。但是這個GPT 2 的直接聊天有速率限制，導緻每天很難搶到。

戰鬥模式聊天是用于基準測試的盲測版本，随機比對兩個模型同時回答問題。雖然模型比對是随機的，但gpt2-chatbot比任何其他模型更有可能成為戰鬥模式的候選者之一，其出現的次數遠遠多于應有的次數，很容易就比對到它。

我比對到 gpt2-chatbot 後進行了幾個經典的推理測試，無疑都回答正确了，甚至結果分析比 gpt4-turbo-2024-04-09 還優秀。

提示詞“我希望昨天是明天，那麼今天就是星期五。今天是星期幾？”。這個推理問題主要是時間線的假設推移，兩個不同的主體視角，答案是星期日和星期三都正确。

這個星期幾的問題，盲測了好幾個模型，包括Gemini-1.5-pro、Llama3-70b、Claude3-sonnet、Phi-3-mini 、通義千問qwen1.5-14b等，除了Gemini-1.5-pro 回答正确外，其他模型都回答錯了。

提示詞“我去了一個聚會，我比john先到達，Davie在Joe之後到達，Joe比我先到達，John在David之後到達。請問是誰第一個到達的？”。答案是Joe。比對到 gemini-1.5-pro和gpt2，兩個都回答正确了。GPT 2 更是在回答中指出了Davie的拼寫錯誤。

提示詞“書上有10隻鳥，獵人打下了一隻鳥，樹上還剩幾隻鳥？”。微軟的phi-3-mini傻傻的回答還有9隻。

網上還有對gpt2程式設計能力的測試。用代碼生成一個旋轉的3D立方體。gpt2的代碼成功運作，而gemini-1.5-pro 生成結果傳回錯誤“ OpenGL.error.NullFunctionError：嘗試調用未定義的函數 glutInit，在調用之前檢查 bool(glutInit)”。

提示詞：Write a Python script that draws a rotating 3D cube, using PyOpenGL.

(You need the following Python packages for this: pip install PyOpenGL PyOpenGL_accelerate pygame

視訊加載中...

總之其輸出的品質——特别是其格式、結構和整體了解都是非常之優秀甚至是頂尖的。在網上找不到有關 gpt2 特定型号名稱的資訊。 LMSYS 基準測試生成的結果可通過其針對所有模型的 API 獲得——除了 gpt2。是以有理由懷疑這就是傳說中的 ChatGPT 4.5 ,而OpenAI将其僞裝成gpt2可能是為了獲得“普通基準”測試的正确回報，而不會因為叫 GPT-4.5/5 ，導緻人們期望過高而獲得有偏見的評級。

另一種推測是，它可能就是一個叫 GPT 2 的新模型。更多的理由是在本月初的一篇論文中提到 GPT 2 的一種新架構。這篇4月7日發表的《語言模型實體學：第 3.3 部分，知識能力縮放定律》（Physics of Language Models: Part 3.3,

Knowledge Capacity Scaling Laws）中提到“ 具有旋轉嵌入功能的 GPT-2 架構在知識存儲方面比對甚至超越了 LLaMA/Mistral 架構，特别是在較短的訓練持續時間内。出現這種情況是因為 LLaMA/Mistral 使用 GatedMLP，它不太穩定且難以訓練。”

論文連結：arxiv.org/abs/2404.05405

這篇論文是由阿聯酋的穆罕默德·本·紮耶德人工智能大學（MBZUAI）送出的，作者是兩名華人 Zeyuan Allen-Zhu 和 Yuanzhi Li。該大學是世界上第一所研究所學生級别的人工智能大學，邵淩教授是發起人、創始教務長兼常務副校長，校長是前卡内基梅隆大學機器學習系研究副主任Eric Xing 博士。

Eric Xing 博士

對于 GPT 2 究竟是誰？随着後續消息應該會很快揭曉。我當然希望結果是後者，這樣能看到更多 AI 新力量的加入。

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

繼續閱讀

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

【産業網際網路周報】Kimi推出付費方案？月之暗面：小範圍灰階測試；示範文生圖時出現sleep代碼，華為回應造假嫌疑；Snowflake正洽談以超10億美元收購Reka AI

從“天價”到“骨折價”，大模型要變天了

大模型想落地，先讓大家用得起

和ChatGPT搞黃色的年輕人

與億級使用者直接互動第三方AI大模型加速接入微網誌生态

訊飛星火大模型賦能，開啟虛拟人“全新意識”

聊聊OpenAI最新釋出的GPT 4o

國内數智化程度最高、內建功能最全！中南院520海上勘測試驗平台在青傳遞

當開源遇到大模型，将産生怎樣的變革？

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

測試人的必修課！一文說透測試設計該怎麼做？

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代