天天看点

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

作者:cnBeta

OpenAI 发布了一个名为 GPT-4o 的新旗舰生成式人工智能模型,并将在未来几周内"迭代式"地在公司产品中推出。OpenAI 首席技术官穆里-穆拉提(Muri Murati)说,GPT-4o 提供了"GPT-4 级"智能,但在 GPT-4 的基础上改进了文本、视觉和音频功能,所有用户都可以免费使用,付费用户将继续 "拥有五倍于免费用户的容量限制"。

穆拉提在 OpenAI 办公室举行的主题演讲上说:GPT-4o 的理由横跨语音、文本和视觉。OpenAI 将发布桌面版 ChatGPT 和全新的用户界面。

穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。这一点非常重要,因为我们正在展望人类与机器之间互动的未来。"

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

GPT-4是OpenAI之前的领先模型,它是图像和文本的结合体,可以分析图像和文本,完成从图像中提取文本甚至描述图像内容等任务。但 GPT-4o 增加了语音功能。

这具体能带来什么?很多方面。

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

GPT-4o 极大地改善了 ChatGPT 的体验--ChatGPT 是 OpenAI 的病毒式人工智能聊天机器人。ChatGPT 长期以来一直提供语音模式,使用文本到语音模式转录 ChatGPT 中的文本。但 GPT-4o 对此进行了改进,让用户可以更像使用助手一样与 ChatGPT 互动。

例如,用户可以向由 GPT-4o 支持的 ChatGPT 提问,并在 ChatGPT 回答时打断它。OpenAI 表示,该模型能提供 "实时"响应,甚至能捕捉用户声音中的情感,并生成 "一系列不同情感风格 "的语音。

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

GPT-4o 还改进了 ChatGPT 的视觉功能。有了照片或桌面屏幕,ChatGPT 现在可以快速回答相关问题,从 "这个软件代码是怎么回事 "到 "这个人穿的是什么牌子的衬衫?

GPT-4o 从即日起在 ChatGPT 的免费级别中推出,OpenAI 的高级 ChatGPT Plus 和 Team 用户可使用 "高出 5 倍 "的消息限制,企业选项 "即将推出"。(OpenAI指出,当用户达到使用阈值时,ChatGPT将自动切换到GPT-3.5)。OpenAI 表示,它将在下个月左右向 Plus 用户推出由 GPT-4o 改良的语音体验。

穆拉提说:"我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 [GPT] 的协作。"

OpenAI 声称,GPT-4o 的多语言能力也会更强,在 50 种不同语言中的性能都有所提高。在 OpenAI 的 API 中,GPT-4o 的速度是 GPT-4(特别是 GPT-4 Turbo)的两倍,价格为 GPT-4 Turbo 的一半,而且速率限制更高。

用户只需发出简单的"嘿,ChatGPT"语音提示,就会收到来自代理的热情洋溢的口语回应。然后,用户使用简单的口语提交查询,并在必要时附上文字、音频和/或视觉效果--后者可以包括照片、手机摄像头的实时画面或代理能"看到"的任何其他内容。

在音频输入方面,人工智能的平均响应时间为 320 毫秒,该公司称这与人与人对话中的人类响应时间相似。在今天的演示中,代理的回答没有出现令人尴尬的滞后现象,这无疑包含了许多类似人类的情感。此外,用户还可以打断代理的回答,而不会影响前后的信息流。

在演示中,GPT-4o 还充当了两个人之间意大利语和英语对话的口译员;帮助一个人解决手写的代数方程;分析编程代码的某些部分;甚至还为一个机器人的睡前故事配上了广告词。

目前,GPT-4o 应用程序接口中还没有为所有客户提供语音功能。OpenAI 以滥用风险为由表示,计划在未来几周内首先向 "一小部分可信赖的合作伙伴 "推出对 GPT-4o 新音频功能的支持。

OpenAI发布最新旗舰生成式AI模型GPT-4o 改进文本、视觉和音频功能

其他方面,OpenAI 将在网络上发布焕然一新的 ChatGPT UI,新的主屏幕和消息布局 "更具对话性",同时还将发布桌面版的 ChatGPT for Mac,用户可以通过键盘快捷键向 ChatGPT 提问,也可以通过打字或说话截图并进行讨论。(从今天开始,Plus 用户将首先获得访问权限,Windows 版本的应用程序将于今年晚些时候推出)。此外,ChatGPT 的免费用户现在还可以访问 GPT Store(OpenAI 基于其人工智能模型构建的第三方聊天机器人库)。

GPT-4o 的文本和图像功能现已开始向付费 ChatGPT Plus 和 Team 用户推出,企业用户也即将推出。免费用户也将开始使用,但有费率限制。

语音版 GPT-4o 将 "在未来几周内 "开始提供。

开发人员将能够使用 GPT-4o 的文本和视觉模式,并在未来几周内向 "一小部分值得信赖的合作伙伴 "提供音频和视频功能。

继续阅读