OpenAI秘密上线神秘模型，疑似ChatGPT4.5进行公开测试

这里所有文章均来自微信公众号“火星AIGC”，本文作者：开山怪。想要看到更多更新的AI前沿信息、AI资讯和AI工具实操，请关注微信公众号“火星AIGC”。

在lmsys.org上最近出现了一个神秘模型 GPT 2 ，经过我个人测试以及网上专业人士的反馈，其输出质量惊人的高，其性能不在最新版的 ChatGPT4-Turbo 之下。让人怀疑它实际上就是 ChatGPT4.5 模型。

我前面文章介绍过 chat.lmsys.org。这是加州大学和卡内基梅隆大学合作推出的AI大模型公开测试平台，无需登录免费使用。用户能够与各种大语言模型聊天并评价他们的输出。

可免费使用33个AI大模型的lmsys.org，包括GPT4和Claude3

这个神秘的 gpt2-chatbot 模型所展示的性能远远超出了任何已知的 GPT-4 之前的模型。它可以在 LMSYS 中的“直接聊天”中聊天，也可以在“竞技场（战斗）”中聊天。但是这个GPT 2 的直接聊天有速率限制，导致每天很难抢到。

战斗模式聊天是用于基准测试的盲测版本，随机匹配两个模型同时回答问题。虽然模型匹配是随机的，但gpt2-chatbot比任何其他模型更有可能成为战斗模式的候选者之一，其出现的次数远远多于应有的次数，很容易就匹配到它。

我匹配到 gpt2-chatbot 后进行了几个经典的推理测试，无疑都回答正确了，甚至结果分析比 gpt4-turbo-2024-04-09 还优秀。

提示词“我希望昨天是明天，那么今天就是星期五。今天是星期几？”。这个推理问题主要是时间线的假设推移，两个不同的主体视角，答案是星期日和星期三都正确。

这个星期几的问题，盲测了好几个模型，包括Gemini-1.5-pro、Llama3-70b、Claude3-sonnet、Phi-3-mini 、通义千问qwen1.5-14b等，除了Gemini-1.5-pro 回答正确外，其他模型都回答错了。

提示词“我去了一个聚会，我比john先到达，Davie在Joe之后到达，Joe比我先到达，John在David之后到达。请问是谁第一个到达的？”。答案是Joe。匹配到 gemini-1.5-pro和gpt2，两个都回答正确了。GPT 2 更是在回答中指出了Davie的拼写错误。

提示词“书上有10只鸟，猎人打下了一只鸟，树上还剩几只鸟？”。微软的phi-3-mini傻傻的回答还有9只。

网上还有对gpt2编程能力的测试。用代码生成一个旋转的3D立方体。gpt2的代码成功运行，而gemini-1.5-pro 生成结果返回错误“ OpenGL.error.NullFunctionError：尝试调用未定义的函数 glutInit，在调用之前检查 bool(glutInit)”。

提示词：Write a Python script that draws a rotating 3D cube, using PyOpenGL.

(You need the following Python packages for this: pip install PyOpenGL PyOpenGL_accelerate pygame

视频加载中...

总之其输出的质量——特别是其格式、结构和整体理解都是非常之优秀甚至是顶尖的。在网上找不到有关 gpt2 特定型号名称的信息。 LMSYS 基准测试生成的结果可通过其针对所有模型的 API 获得——除了 gpt2。所以有理由怀疑这就是传说中的 ChatGPT 4.5 ,而OpenAI将其伪装成gpt2可能是为了获得“普通基准”测试的正确反馈，而不会因为叫 GPT-4.5/5 ，导致人们期望过高而获得有偏见的评级。

另一种推测是，它可能就是一个叫 GPT 2 的新模型。更多的理由是在本月初的一篇论文中提到 GPT 2 的一种新架构。这篇4月7日发表的《语言模型物理学：第 3.3 部分，知识能力缩放定律》（Physics of Language Models: Part 3.3,

Knowledge Capacity Scaling Laws）中提到“ 具有旋转嵌入功能的 GPT-2 架构在知识存储方面匹配甚至超越了 LLaMA/Mistral 架构，特别是在较短的训练持续时间内。出现这种情况是因为 LLaMA/Mistral 使用 GatedMLP，它不太稳定且难以训练。”

论文链接：arxiv.org/abs/2404.05405

这篇论文是由阿联酋的穆罕默德·本·扎耶德人工智能大学（MBZUAI）提交的，作者是两名华人 Zeyuan Allen-Zhu 和 Yuanzhi Li。该大学是世界上第一所研究生级别的人工智能大学，邵凌教授是发起人、创始教务长兼常务副校长，校长是前卡内基梅隆大学机器学习系研究副主任Eric Xing 博士。

Eric Xing 博士

对于 GPT 2 究竟是谁？随着后续消息应该会很快揭晓。我当然希望结果是后者，这样能看到更多 AI 新力量的加入。

OpenAI秘密上线神秘模型，疑似ChatGPT4.5进行公开测试

继续阅读

OpenAI员工离职遭“封口”、核心安全团队解散，Altman下场紧急回应：确有协议，但从未实行过！

【产业互联网周报】Kimi推出付费方案？月之暗面：小范围灰度测试；演示文生图时出现sleep代码，华为回应造假嫌疑；Snowflake正洽谈以超10亿美元收购Reka AI

从“天价”到“骨折价”，大模型要变天了

大模型想落地，先让大家用得起

和ChatGPT搞黄色的年轻人

与亿级用户直接互动第三方AI大模型加速接入微博生态

讯飞星火大模型赋能，开启虚拟人“全新意识”

聊聊OpenAI最新发布的GPT 4o

国内数智化程度最高、集成功能最全！中南院520海上勘测试验平台在青交付

当开源遇到大模型，将产生怎样的变革？

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

OpenAI惊变！首席科学家突然离职！王煜全独家分析！

传清华系大模型公司高层变动

58同城孙启明：生活服务垂类大模型怎么搭？自研+开源两手抓

测试人的必修课！一文说透测试设计该怎么做？

AI天玑全量推送国内首个端到端大模型量产上车小鹏开启AI智驾时代