天天看点

人工智能也能提供“情绪价值”了,OpenAI发布全新大模型GPT-4o

作者:现代快报

北京时间5月14日凌晨,全球知名人工智能研究机构OpenAI在其春季发布会上宣布,正式推出全新多模态大模型GPT-4o。这一革命性的产品标志着生成式AI领域的新突破,为用户带来了前所未有的交互体验。GPT-4o以其强大的文本、音频、图像处理能力,以及快速响应和免费开放的特点,迅速引发了业界的广泛关注。

人工智能也能提供“情绪价值”了,OpenAI发布全新大模型GPT-4o

响应速度仅232毫秒,聊天堪比真人

GPT-4o作为OpenAI的最新旗舰产品,其名称中的“o”代表“omni”,意为“全能的”。这款模型不仅支持文本输入,还能接受音频和图像的任意组合作为输入,并生成相应的文本、音频和图像输出。这一特性使得GPT-4o在人机交互方面展现出了极高的灵活性和适应性。

在发布会上,OpenAI展示了GPT-4o的实时互动能力。无论是语音输入还是图像识别,GPT-4o都能在短时间内给出准确的回应。用户能够像与助手互动一样自然地使用ChatGPT,也可以在ChatGPT回答问题时中断它。而且,新模型能够捕捉到用户声音中的情感,并以不同的情感风格生成语音,如同真人一般。

特别是音频输入方面,GPT-4o的响应速度仅为232毫秒至320毫秒,与人类对话反应速度相当。这种近乎实时的交互体验,使得GPT-4o在语音助手、智能客服等领域具有巨大的应用潜力。

人工智能也能提供“情绪价值”了,OpenAI发布全新大模型GPT-4o

举个例子,在OpenAI释出的演示视频中,当使用者将镜头对准了生日蛋糕和蜡烛,GPT-4o能快速反应出他们在过生日。而当使用者提出希望听到生日祝福歌时,GPT-4o能够像真人一样唱歌,且语气俏皮不生硬。

值得一提的是,GPT-4o将对所有用户免费开放。这一举措无疑将大大降低AI技术的使用门槛,使得更多的人能够体验到AI技术带来的便利。同时,OpenAI还为Plus用户提供了额外的福利,包括5倍的调用额度等。

GPT-4o的强大功能得益于其跨文本、视觉和音频的端到端训练方式。这意味着所有输入和输出都由同一个神经网络处理,从而实现了高效的信息整合和生成。这种训练方式不仅提高了模型的性能,还使得GPT-4o在图像和音频理解方面表现尤为出色。

CEO山姆·奥特曼表示,最初的 ChatGPT展示了语言界面的雏形,而新的ChatGPT则给人截然不同的感觉。“它快速、智能、有趣、自然,且有用。”

“对我来说,与电脑交谈从来没有真的自然过,而现在却很自然。我真的看到了一个令人兴奋的未来,在这个未来,我们可以使用计算机做比以往更多的事情。”奥特曼说。

GPT-4o或引发AI应用新风口

这款多模态大模型在文字、语音和视频方面取得了显著突破,极大地提升了AI的应用潜力。GPT-4o的推出或将加速AI应用的落地进程,推动AI技术向更广泛的领域渗透。同时,GPT-4o的多模态交互能力也将为AI技术带来全新的发展机遇和挑战。

人工智能也能提供“情绪价值”了,OpenAI发布全新大模型GPT-4o

硅谷连续创业者、Traini创始人及CEO孙邻家在接受第一财经记者采访时表示,OpenAI的最新发布将交互方式进行了升级、变革。“语音正在成为一个较稳定的接口,扩宽人类与产品交互的物理边界。而且与GPT实时对话时,GPT能富有情感地回应,这个很酷,之前AGI是缺乏情感的。”他还表示,人工智能(AI)领域正在往AI应用方向发展,将给生活创造真实价值。

然而,也有人对GPT-4o的未来发展持谨慎态度。他们认为,虽然GPT-4o在技术上取得了重大突破,但在实际应用中仍需要解决一些问题和挑战。例如,如何确保GPT-4o在处理用户数据时的隐私安全、如何避免GPT-4o的误判和误导等。

对此,OpenAI表示,为GPT-4o“创建了新的安全系统,为语音输出提供保护”。GPT-4o还与社会心理学、偏见和公平性以及错误信息等领域的70多名专家进行了广泛的外部评估,以确定新增加的模型会带来或放大哪些风险。

针对可汗学院的可汗使用GPT-4o辅导他儿子做数学题的示例,人工智能软件开发人员麦凯·瑞格利(Mckay Wrigley)在社交平台X上写道:“这个演示太疯狂了。学生与GPT-4o共享iPad屏幕,人工智能与他们对话,实时帮助他们学习。想象一下,如果世界上每个学生都能这样学习,未来是如此的光明。”

有网友觉得OpenAI进一步拉开了和苹果的差距,认为GPT-4o“功能秒杀Siri”。

不过,据外媒报道,苹果公司已接近与OpenAI达成协议,今年将后者的部分技术引入iPhone,提供由ChatGPT支持的“聊天机器人”作为iOS 18中人工智能功能的一部分。

不过,苹果同时还与谷歌就授权Gemini聊天机器人进行了谈判。而谷歌将在OpenAI此次春季更新发布会之后一天举行I/O开发者大会,谷歌在大会的官方博文中曾提到“Gemini 时代”,预计将会发布Gemini大模型的最新动态。

现代快报/现代+记者 龙秋利 综合

继续阅读