天天看点

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

作者:开山怪阿土

这里所有文章均来自微信公众号“火星AIGC”,本文作者:开山怪。想要看到更多更新的AI前沿信息、AI资讯和AI工具实操,请关注微信公众号“火星AIGC”。

在lmsys.org上最近出现了一个神秘模型 GPT 2 ,经过我个人测试以及网上专业人士的反馈,其输出质量惊人的高,其性能不在最新版的 ChatGPT4-Turbo 之下。让人怀疑它实际上就是 ChatGPT4.5 模型。

我前面文章介绍过 chat.lmsys.org。这是加州大学和卡内基梅隆大学合作推出的AI大模型公开测试平台,无需登录免费使用。用户能够与各种大语言模型聊天并评价他们的输出。

可免费使用33个AI大模型的lmsys.org,包括GPT4和Claude3

这个神秘的 gpt2-chatbot 模型所展示的性能远远超出了任何已知的 GPT-4 之前的模型。它可以在 LMSYS 中的“直接聊天”中聊天,也可以在“竞技场(战斗)”中聊天。但是这个GPT 2 的直接聊天有速率限制,导致每天很难抢到。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

战斗模式聊天是用于基准测试的盲测版本,随机匹配两个模型同时回答问题。虽然模型匹配是随机的,但gpt2-chatbot比任何其他模型更有可能成为战斗模式的候选者之一,其出现的次数远远多于应有的次数,很容易就匹配到它。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

我匹配到 gpt2-chatbot 后进行了几个经典的推理测试,无疑都回答正确了,甚至结果分析比 gpt4-turbo-2024-04-09 还优秀。

提示词“我希望昨天是明天,那么今天就是星期五。今天是星期几?”。这个推理问题主要是时间线的假设推移,两个不同的主体视角,答案是星期日和星期三都正确。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

这个星期几的问题,盲测了好几个模型,包括Gemini-1.5-pro、Llama3-70b、Claude3-sonnet、Phi-3-mini 、通义千问qwen1.5-14b等,除了Gemini-1.5-pro 回答正确外,其他模型都回答错了。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

提示词“我去了一个聚会,我比john先到达,Davie在Joe之后到达,Joe比我先到达,John在David之后到达。请问是谁第一个到达的?”。答案是Joe。匹配到 gemini-1.5-pro和gpt2,两个都回答正确了。GPT 2 更是在回答中指出了Davie的拼写错误。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

提示词“书上有10只鸟,猎人打下了一只鸟,树上还剩几只鸟?”。微软的phi-3-mini傻傻的回答还有9只。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

网上还有对gpt2编程能力的测试。用代码生成一个旋转的3D立方体。gpt2的代码成功运行,而gemini-1.5-pro 生成结果返回错误“ OpenGL.error.NullFunctionError:尝试调用未定义的函数 glutInit,在调用之前检查 bool(glutInit)”。

提示词:Write a Python script that draws a rotating 3D cube, using PyOpenGL.

(You need the following Python packages for this: pip install PyOpenGL PyOpenGL_accelerate pygame

视频加载中...

总之其输出的质量——特别是其格式、结构和整体理解都是非常之优秀甚至是顶尖的。在网上找不到有关 gpt2 特定型号名称的信息。 LMSYS 基准测试生成的结果可通过其针对所有模型的 API 获得——除了 gpt2。所以有理由怀疑这就是传说中的 ChatGPT 4.5 ,而OpenAI将其伪装成gpt2可能是为了获得“普通基准”测试的正确反馈,而不会因为叫 GPT-4.5/5 ,导致人们期望过高而获得有偏见的评级。

另一种推测是,它可能就是一个叫 GPT 2 的新模型。更多的理由是在本月初的一篇论文中提到 GPT 2 的一种新架构。这篇4月7日发表的《语言模型物理学:第 3.3 部分,知识能力缩放定律》(Physics of Language Models: Part 3.3,

Knowledge Capacity Scaling Laws)中提到“ 具有旋转嵌入功能的 GPT-2 架构在知识存储方面匹配甚至超越了 LLaMA/Mistral 架构,特别是在较短的训练持续时间内。出现这种情况是因为 LLaMA/Mistral 使用 GatedMLP,它不太稳定且难以训练。”

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

论文链接:arxiv.org/abs/2404.05405

这篇论文是由阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)提交的,作者是两名华人 Zeyuan Allen-Zhu 和 Yuanzhi Li。该大学是世界上第一所研究生级别的人工智能大学,邵凌教授是发起人、创始教务长兼常务副校长,校长是前卡内基梅隆大学机器学习系研究副主任Eric Xing 博士。

OpenAI秘密上线神秘模型,疑似ChatGPT4.5进行公开测试

Eric Xing 博士

对于 GPT 2 究竟是谁?随着后续消息应该会很快揭晓。我当然希望结果是后者,这样能看到更多 AI 新力量的加入。

继续阅读