天天看点

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

作者:快乐湖泊9f7

如果您喜欢这篇作品,欢迎点击右上方“关注”。感谢您的鼓励与支持,希望能给您带来舒适的阅读体验。此篇文章,只做今日头条首发创作,未发布其他任何平台,原创不易,抄袭、洗稿必将深究。

数码点评派探秘:AI语言大模型综合评测

过去的一年里,OpenAI推出了ChatGPT,一款引爆科技圈的语言模型。它不仅可以与人聊天,还能进行算数、编程,甚至帮助程序员修复BUG。

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

然而,科技巨头们也不甘示弱,纷纷投入竞品开发,以确保不被淘汰。

微软是其中一例。在ChatGPT发布不久后,微软急速推出了NewBing,将GPT-3.5这款强大的人类语言理解模型应用于自家搜索引擎。这使得原本一般的必应搜索引擎一跃成为了一个几乎全知全能的AI搜索引擎,具备联网搜索和上下文交流等功能。

相对而言,谷歌发布的AI聊天机器人Bard表现逊色不少。

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

不仅发布会上出现错误回答,连内测版用户询问其倒闭时间,也被错误引用。这暗示谷歌的训练量可能不足。尽管如此,受到外界压力,谷歌不得不推出了这款训练时长有限的产品。

值得注意的是,谷歌直到今年7月13日才正式支持中文语言。然而,百度的文心一言和讯飞的星火模型已经陆续开放测试,甚至有用户开始对它们进行横向对比。

为了评估这些语言大模型的能力,我们将从实时信息搜索、中文理解能力,以及多模态识别能力等方面进行综合评估。

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

实时信息搜索能力

对于数码领域的问题,如荣耀Magic V2的发布时间和硬件配置,各个模型的表现存在差异。Bard在回答方面显得有些抽象,准确性也存在问题,可能由于对中文理解不足。文心一言表现较为稳定,错误信息较少,而星火模型在这方面表现最差,甚至出现了一些错误的信息。

中文理解能力

在中文理解能力测试中,Bard的表现相对较差,对于一些中文俚语和逻辑关系理解不足。

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

文心一言和星火模型在中文理解上表现更为出色,特别是星火模型还能提供实际例子帮助用户理解。

多模态识别能力

Bard的多模态识别能力较强,尤其在识图和编程方面表现出色。然而,与其他模型相比,其中文能力较弱。星火模型在多模态识别方面则表现不佳,未提供图片上传功能。

综合评价

经过七月的大更新,谷歌的Bard已经能够较为稳定地应用于中文环境。它支持中文聊天、识图反馈信息,并能够联网搜索实时信息。

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

虽然功能丰富,但整体而言,各家语言大模型在表现上相差不大,都没有突破“聊天问答”的框架。

最后,我们仍然期待着这些语言大模型能够在更多领域创造出杀手级的应用场景,以实现技术的更大突破。无论是谷歌的Bard,还是百度的文心一言和讯飞的星火模型,都有可能在不久的将来带来更多令人惊喜的创新。

诚邀您点击一下“关注”按钮,方便以后持续为您推送此类文章,非常感谢您的阅读和支持,希望能与您进行更多的互动和交流。

普通人还在目瞪口呆的时候,科技巨头们已经开始加班搞竞品了

继续阅读