天天看點

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

作者:開山怪阿土

這裡所有文章均來自微信公衆号“火星AIGC”,本文作者:開山怪。想要看到更多更新的AI前沿資訊、AI資訊和AI工具實操,請關注微信公衆号“火星AIGC”。

在lmsys.org上最近出現了一個神秘模型 GPT 2 ,經過我個人測試以及網上專業人士的回報,其輸出品質驚人的高,其性能不在最新版的 ChatGPT4-Turbo 之下。讓人懷疑它實際上就是 ChatGPT4.5 模型。

我前面文章介紹過 chat.lmsys.org。這是加州大學和卡内基梅隆大學合作推出的AI大模型公開測試平台,無需登入免費使用。使用者能夠與各種大語言模型聊天并評價他們的輸出。

可免費使用33個AI大模型的lmsys.org,包括GPT4和Claude3

這個神秘的 gpt2-chatbot 模型所展示的性能遠遠超出了任何已知的 GPT-4 之前的模型。它可以在 LMSYS 中的“直接聊天”中聊天,也可以在“競技場(戰鬥)”中聊天。但是這個GPT 2 的直接聊天有速率限制,導緻每天很難搶到。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

戰鬥模式聊天是用于基準測試的盲測版本,随機比對兩個模型同時回答問題。雖然模型比對是随機的,但gpt2-chatbot比任何其他模型更有可能成為戰鬥模式的候選者之一,其出現的次數遠遠多于應有的次數,很容易就比對到它。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

我比對到 gpt2-chatbot 後進行了幾個經典的推理測試,無疑都回答正确了,甚至結果分析比 gpt4-turbo-2024-04-09 還優秀。

提示詞“我希望昨天是明天,那麼今天就是星期五。今天是星期幾?”。這個推理問題主要是時間線的假設推移,兩個不同的主體視角,答案是星期日和星期三都正确。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

這個星期幾的問題,盲測了好幾個模型,包括Gemini-1.5-pro、Llama3-70b、Claude3-sonnet、Phi-3-mini 、通義千問qwen1.5-14b等,除了Gemini-1.5-pro 回答正确外,其他模型都回答錯了。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

提示詞“我去了一個聚會,我比john先到達,Davie在Joe之後到達,Joe比我先到達,John在David之後到達。請問是誰第一個到達的?”。答案是Joe。比對到 gemini-1.5-pro和gpt2,兩個都回答正确了。GPT 2 更是在回答中指出了Davie的拼寫錯誤。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

提示詞“書上有10隻鳥,獵人打下了一隻鳥,樹上還剩幾隻鳥?”。微軟的phi-3-mini傻傻的回答還有9隻。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

網上還有對gpt2程式設計能力的測試。用代碼生成一個旋轉的3D立方體。gpt2的代碼成功運作,而gemini-1.5-pro 生成結果傳回錯誤“ OpenGL.error.NullFunctionError:嘗試調用未定義的函數 glutInit,在調用之前檢查 bool(glutInit)”。

提示詞:Write a Python script that draws a rotating 3D cube, using PyOpenGL.

(You need the following Python packages for this: pip install PyOpenGL PyOpenGL_accelerate pygame

視訊加載中...

總之其輸出的品質——特别是其格式、結構和整體了解都是非常之優秀甚至是頂尖的。在網上找不到有關 gpt2 特定型号名稱的資訊。 LMSYS 基準測試生成的結果可通過其針對所有模型的 API 獲得——除了 gpt2。是以有理由懷疑這就是傳說中的 ChatGPT 4.5 ,而OpenAI将其僞裝成gpt2可能是為了獲得“普通基準”測試的正确回報,而不會因為叫 GPT-4.5/5 ,導緻人們期望過高而獲得有偏見的評級。

另一種推測是,它可能就是一個叫 GPT 2 的新模型。更多的理由是在本月初的一篇論文中提到 GPT 2 的一種新架構。這篇4月7日發表的《語言模型實體學:第 3.3 部分,知識能力縮放定律》(Physics of Language Models: Part 3.3,

Knowledge Capacity Scaling Laws)中提到“ 具有旋轉嵌入功能的 GPT-2 架構在知識存儲方面比對甚至超越了 LLaMA/Mistral 架構,特别是在較短的訓練持續時間内。出現這種情況是因為 LLaMA/Mistral 使用 GatedMLP,它不太穩定且難以訓練。”

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

論文連結:arxiv.org/abs/2404.05405

這篇論文是由阿聯酋的穆罕默德·本·紮耶德人工智能大學(MBZUAI)送出的,作者是兩名華人 Zeyuan Allen-Zhu 和 Yuanzhi Li。該大學是世界上第一所研究所學生級别的人工智能大學,邵淩教授是發起人、創始教務長兼常務副校長,校長是前卡内基梅隆大學機器學習系研究副主任Eric Xing 博士。

OpenAI秘密上線神秘模型,疑似ChatGPT4.5進行公開測試

Eric Xing 博士

對于 GPT 2 究竟是誰?随着後續消息應該會很快揭曉。我當然希望結果是後者,這樣能看到更多 AI 新力量的加入。

繼續閱讀