天天看点

科大讯飞星火超越ChatGPT?

作者:Hi每天一点点

这几天看见新闻报道,科大讯飞高级副总裁胡国平在中关村论坛中发布讯飞星火年度计划。计划6月9日,突破开放式问答,多轮对话能力再升级,数学能力再升级。计划10月24日,通用模型对标ChatGPT(中文超越,英文相当)。

科大讯飞星火超越ChatGPT?

科大讯飞星火凭什么有底气说能超越ChatGPT?

截止目前,科大讯飞星火大模型还处于限讯飞开放平台生态合作伙伴用于体验,还没有正式对外正式公布。

早在今年的5.6日科大讯飞的发布上公布了星火大模型,发布会上就表明,为了科学 PK ChatGPT 能力,科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,并与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖 7 大类 481 各细分任务类型。

科大讯飞星火超越ChatGPT?

发布会现场

首先认识下科大讯飞星火认知大模型

科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。以下是星火认知大模型目前支持的一些应用场景:

1、语言理解

l 机器翻译:翻译多种语言的文字,包括英语、中文、法语、德语、西班牙语等常用语种

l 文本摘要:根据文本提取简洁而准确的摘要,快速理解文章的核心观点

l 语法检查:检查语法错误并提供正确的语法建议,使写作更加规范与专业

l 情感分析:分析文本中的情感色彩,如正面、负面或中性,更好了解内容观点和态度

2、知识问答

l 生活常识:提供有关日常生活的知识,如饮食、运动、旅游等方面的建议

l 工作技能:提供工作方面的知识,如沟通技巧、时间管理技巧、团队协作等方面的建议

l 医学知识:提供基本的健康保健知识以及疾病预防、诊断和治疗方面的建议

l 历史人文:提供有关历史事件、文化传承、名人故事、名言警句等方面的文案

3、逻辑推理

l 思维推理:通过分析问题的前提条件和假设来推理出答案或解决方案,给出新的想法和见解

l 科学推理:使用已有的数据和信息进行推断、预测和验证等科学研究中的基本任务

l 常识推理:在进行对话交流时,运用已有的常识知识来分析、解释和回应用户的提问或需求

4、数学题解答

l 方程求解:包括一元二次方程、二元一次方程、三元一次方程等等

l 几何问题:平面几何(如直线、圆、三角形等的性质)和立体几何(如体积、表面积、投影等)

l 微积分:处理导数、积分等微积分相关的问题,涉及基本概念如极限、连续性、导数等

l 概率统计:涉及随机变量、概率分布、假设检验等方面的内容

5、代码理解与编写

l 代码理解:帮助用户理解绝大部分编程语言、算法和数据结构,快速给出所需的解答

l 代码修改:对已有代码进行修改或优化,提供建议和指导,找出潜在的问题并提供解决方案

l 代码编写:帮助用户快速编写一些简单的代码片段,例如函数、类或循环等

l 步骤编译:提供关于编程语言的文档和工具,如语法规则、函数库、自动补全代码工具等

科大讯飞星火超越ChatGPT?

来源于网络

科大讯飞星火超越ChatGPT?

来源于网络

从发布上看,目前星火通用能力业内明显领先。中文方面,当前讯飞星火认知大模型已经在文本生成、知识问答、数学能力三大能力上已超 ChatGPT(实际情况还得正式公布后,待广大用户实际使用后,再做定论),10 月底将整体赶超 ChatGPT。不过发布会现场刘庆峰表示,科大讯飞现在的语言能理解能力相比 ChatGPT 还略有差距,但已超越国内同类产品。

有一个演示比较有意思,输入一份图文并茂的英文菜单,星火不仅立刻给出了中文版菜单,还能应要求介绍没有吃过的菜品基本情况,用户甚至可以指定虚拟人以指定的合成声音,给自己介绍这些菜单内容。

另外,星火的数理逻辑能力还是不错,发布会现场抛出了复杂的计算题:花坛里有三种花,一共 88 朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的 5 倍少 2 朵,那么请问花坛里一共有多少朵牡丹花?大模型很快准确给出了答案,并给出了解题步骤。

刘庆峰表示,工业领域也是一个非常重要落地场景,降低没有软件背景普通工程师和工人的编程门槛,我们可以期待 8 月的能力突破。同时表示,讯飞星火大模型不仅在国内系统中遥遥领先,也超过了 ChatGPT。而且还表示,10 月 24 日开发者大会上,星火要对标 ChatGPT,在中文上超过,在英文上要达到跟它相当的水平。

ChatGPT的水平?

先看看ChatGPT的发展

这款聊天工具由美国企业OpenAI 开发,自2022年11月发布以来引发了全球轰动。发布五天,用户便超过100万人,无情碾压了脸书公司10个月破百万用户的纪录。发布短短两个月,ChatGPT用户数突破1亿,而TikTok达到1亿用户也花了9个月的时间,成为史上用户数增长最快的消费者应用。

2022年11月30日

ChatGPT上市。

2022年12月5日

OpenAI创始人山姆·奥特曼宣布 ,ChatGPT的用户已经突破100万人,仅用时5天。

2023年1月末

ChatGPT 用户数突破1亿,成为史上用户数增长最快的消费者应用。

2023年1月末

微软宣布向推出 ChatGPT的OpenAI公司追加投资100亿美元。

2023年2月2日

OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus,以每月20美元的价格提供服务,订阅者可获得比免费版本更稳定、更快的服务,以及尝试新功能和优化的优先权。

2023年2月2日

微软宣布其旗下所有产品全线整合ChatGPT。

2023年2月6日

谷歌母公司字母表公司宣布将推出聊天机器人Bard,不同于ChatGPT的数据库只更新到2021年,Bard将收集最新的内容。

2023年2月7日

ChatGPT官网表示,大量用户蜂拥而至导致网站瘫痪,用户在ChatGPT页面提问显示“一小时内提问太多次,请稍后再试”。

2023年2月8日

微软宣布推出由ChatGPT 支持的最新版本人工智能搜索引擎Bing和Edge浏览器。

2023年3月15日

3月15日,凌晨,OpenAI发布大型多模式模型GPT-4、ChatGPT Plus,据OpenAI官方介绍,GPT-4是一个大型的多模式模型,可以接受图像和文本输入,输出文本,在各种专业和学术基准上表现出人类水平的性能。不少人在尝试新版本之后表示,它比早先大家使用的ChatGPT的GPT-3.5强悍了一大截,再次刷新了对AI的认知。

科大讯飞星火超越ChatGPT?
科大讯飞星火超越ChatGPT?

来源于网络

和上一代相比,GPT-4 拥有了更广的知识面和更强的解决问题能力,在创意、视觉输入和长内容上表现都更好了。用在创意项目上,它能帮助用户一起创作歌曲、编写剧本或者学习用户的写作风格。值得注意的是, GPT-4 可以直接读取 3.2 万个 token,相当于给它 25000 英文字的背景信息,就可以快速给出结论—也就是说,像律师助理这样的职业真的要被取代了。而上一个版本只能读取 4096 个token,相当于3000 英文字信息,这个版本的进步是跨越式的。除了文本以外,你还能把图片作为输入内容给 GPT-4,它不仅能够识别出图中的物件,还能根据这些信息进一步处理内容。

10秒钟做出一个网站

一则有关GPT4发布会的视频在网上流传,这则两分钟的视频演示的内容是:

1. 在草稿本上用纸笔画出一个非常粗糙的草图;

2. 拍照告诉 GPT 我们要做一个网站,效果正如图所示,让其生成网站代码;

3. 网站做完,总共历时十秒钟左右。

在官方演示中,GPT-4能根据一张草图,几乎只花十来秒的时间就实时生成了一个网站完整的前端HTML代码并制作出网站。

科大讯飞星火超越ChatGPT?
科大讯飞星火超越ChatGPT?

60秒做出一个游戏

相关演示并非来自官方,而是网友进行了试验。据报道,网友对话GPT-4,要求其做一个弹球游戏,耗时约60秒。最终,在无需反复沟通的情况下,GPT-4一次性完成了这个游戏。

另有网友要求GPT-4制作贪吃蛇游戏,最终耗时约20分钟,成功编写和调试了整个贪食蛇游戏。虽GPT-4无法在回复中一次性完成操作,但经过多次对话后还是完成了,而整个过程中网友只需回复“继续”即可。

可准确识别梗图

这也是GPT-4一个质的飞跃,那就是开始处理图像了。之前,人们可以用它来处理文本,即根据给定的语境生成文本,例如生成文章、诗歌、对话等。而GPT-4支持输入的内容不再局限于文字,而是开始接受图像作为输入介质。根据官方演示,面对一张“梗图”,GPT-4精准描述出了图片的内容,并有思维条理的解释了为什么这张图会让人觉得好笑。

科大讯飞星火超越ChatGPT?
科大讯飞星火超越ChatGPT?
科大讯飞星火超越ChatGPT?
科大讯飞星火超越ChatGPT?

据 OpenAI 介绍,GPT-4 展示了「在多种专业和学术指标下展现了人类水平的表现」:类似于手机的跑分软件,在 ChatGPT 刚出来的时候,也有不少人用它「刷题跑分」,在 GPT-3.5 版本模型下,它的 SAT 成绩只能排倒数 10% 的水平,然而 GPT-4 模型可以超越 90% 考生的水平。

科大讯飞星火超越ChatGPT?

在其他考试也呈现出类似对比效果,如果光是「跑分」,ChatGPT-4 属于是可以考进哈佛、斯坦福的水平。

OpenAI的最新一代AI语言模型ChatGPT 4完成并通过了美国的几个会计类考试,包括美国注册会计师(CPA)、注册管理会计师(CMA)、注册内部审计师(CIA)和注册税务师(EA),平均得分85.1。

ChatGPT不仅「考过了」美国医师执照考试,还以一作身份发表了一篇肿瘤学论文。

ChatGPT 不仅通过了美国最具挑战性的专业考试MBA、法律资格考试和美国医学执照考试,ChatGPT 又通过了中国数据库系统工程师考试。之前ChatGPT 以 18.3 万美元的薪水通过了 3 级工程师的 Google 编码面试。

OpenAI 最初的联合创始人之一埃隆·马斯克此前在推特上写道:“这是一个新世界。再见作业!”目前看来,马斯克的说法得到了证实。在写论文方面,ChatGPT确实厉害。美国北密歇根大学哲学教授Antony Aumann不久前为自己的世界宗教课评出了全班最佳论文,但随后才得知该论文是学生用ChatGPT写的。

ChatGPT 最突出的一个特点是,采用了注重道德水平的训练方式,按照预先设计的道德准则,对不怀好意的提问和请求说“不”。一旦发现用户给出的文字提示里面含有恶意,包括但不限于暴力、歧视、犯罪等意图,都会拒绝提供有效答案。这使用户在互动过程中能明显感觉到ChatGPT的“聪明劲”。

值得注意的是,ChatGPT的数据库只更新到了2021年,且目前是非联网状态,这和谷歌即将推出的Bard有较大区别。谷歌强调,Bard将采用最新的数据,这也是谷歌作为后来者同ChatGPT竞争的一大优势。

如今,多家科技巨头纷纷启动了相关产品规划,一场超级“内卷”的人工智能竞逐赛正在上演。

微软是ChatGPT出品方OpenAI的主要支持者,目前已经将ChatGPT相关技术用于其Bing搜索引擎。今年1月,微软进一步宣布扩大合作,将向OpenAI投资100亿美元(约合679.02亿元人民币)。

有媒体报道,谷歌将ChatGPT视为“红色警戒”级别威胁,特意请回几年前离职的联合创始人谢尔盖·布林和拉里·佩奇商讨对策。2月6日,谷歌母公司字母表公司宣布将推出聊天机器人Bard,据介绍,Bard 最初仅供一些测试人员使用,之后再大范围推广。

除了自研产品外,谷歌也在外脑方面猛发力。据媒体报道,谷歌公司2月初向人工智能初创公司Anthropic投资近4亿美元(约合27.16亿元人民币)。据悉,Anthropic的人工智能助手Claude也有望成为ChatGPT的竞争对手。在2月初发布最新财报时,谷歌首席执行官桑达尔·皮查伊放言,谷歌在人工智能领域处于有利地位,因为已经迎来了拐点。

数据显示,亚马逊部署的机器人数量也在快速增长,每天增量达到1000个左右。

此外,脸书母公司Meta也计划2023年在数据中心上额外投入40亿至50亿美元,预计全部用于人工智能。

另外,国内的百度公司文心一言云服务于3月27日上线。5 月 28 日,百度首席技术官王海峰在中关村论坛中演示了“文心一言”尚未公开上线的通过文本生成视频功能、智能总结聊天记录功能、智能编程功能。“飞桨”与“文心”联合优化,近 1 个多月推理性能提升 10 倍。

ChatGPT的狂飙突进火速引发了新一轮的人工智能竞赛。

科大讯飞星火大模型的底气

2010年,科大讯飞开放平台正式上线,集成了语音合成、语音搜索、自然语言处理和语音听写等多项能力,成为了当时行业内开放最早的智能语音平台。据了解,经过十几年的发展,科大讯飞开放平台目前已对外开放了318项AI能力及方案,链接超200万生态合作伙伴,累计支持超过28亿终端。

科大讯飞在 2022 年度业绩说明会答投资者问中提到,科大讯飞在 Transformer 深度神经网络算法方面已经拥有丰富经验,也广泛应用于科大讯飞的语音识别、图文识别、机器翻译等任务并达到国际领先水平。

其中,核心技术方面一直保持国际领先水平。在人工智能技术从感知智能迈向认知智能的攻坚阶段,常识推理是重要一环。仅 2022 年,科大讯飞就在认知智能技术领域累计获得 13 项世界冠军。

例如,在 OpenBookQA 夺冠后,科大讯飞对夺冠系统、知识与大模型融合统一的理解框架 X-Reasoner 升级改造后,推出 X-Reasoner++ 又在 2022 年夺得 QASC 榜首,实现全球首次超越人类平均水平。

2022 年,他们还开源了 6 个大类、超过 40 个通用领域的系列中文预训练语言模型,相关模型库月均调用量超 1000 万,在 Github 平台获得星标数位列同类中文预训练语言模型第一并远超第二名。除了核心算法方面的积累,科大讯飞在多年认知智能系统研发推广中积累了超过50TB 的行业语料和每天超 10 亿人次用户交互的活跃应用。

第三方数据看似获取门槛较低,但想规模化获取海量的高质量数据并非易事,需要长时间规范化积累,在数据合规性上也必须有一定保障,这也是为什么科大讯飞在大模型领域的创新值得关注。

在教育领域,科大讯飞相关教育产品已在全国 32 个省级行政区得到应用,覆盖五万余所学校、1.3 亿师生,拥有海量语音、成绩单、题库等数据。

在医疗领域,科大讯飞在业内是全国唯一通过国家执业医师资格考试的人工智能系统,超过了 96.3% 的医学考生,已累计为基层医生提供了超过 5.8 亿次、日均超过七十多万人次的人工智能辅诊。

同样,作为首批国家新一代人工智能开放创新平台,日使用量超过 50 亿人次,多年来也为大模型提供了海量文本语料和用户反馈数据。

在认知大模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了很好的硬件基石。

2022 年 12 月,科大讯飞开始星火认知智能大模型的专项攻关,能在五个月里实现认知大模型的快速突破,和公司长期扎实积累密不可分。据了解,基于科大讯飞多年来业务根据地的稳扎稳打,讯飞星火认知大模型目前已在教育、办公、车载、数字员工等多个行业和产品中落地。他举例,比如讯飞AI学习机,不光可以帮助学生练习口语,还可以像老师一样批改作文,精确指错;讯飞智能办公本可以直接根据手写的关键词自动生成会议纪要;讯飞听见可以实现“一段录音一键成稿”功能。

同时,讯飞星火认知大模型还赋能445万名开发者,通过开放图文识别、人脸识别、声纹识别等560项AI能力,共建人工智能的“星火”生态,在教育、医疗、司法、汽车等民生领域解决行业刚需。

刘庆峰还在现场展示了讯飞星火的语言翻译、逻辑推理等能力,并分享了讯飞星火认知大模型的升级迭代里程碑计划:6月9日将突破开放式问答,多轮对话能力和数学能力再升级;8月15日将突破代码能力,多模态交互再升级;10月24日通用模型将对标ChatGPT(中文超越,英文相当)。

后话

当ChatGPT出来时,其实我更看好Google,国内的百度,其实模型有开源的,除了技术研发大模型,最重要的是学习,也就是要大规模的训练,除了算法本身,还需要更高要求的硬件以及庞大的数据,这些是Google、百度最具有的优势,特别是数据这块。但Google刚出来就演砸了,百度的文心一言有很多诟病,并没有达到期待的高度。反而ChatGPT无论是更新速度,还是数据量都极速的增长,这些少不了微软强力的支持,包括技术以及资金,微软可是砸了重金,同时已经开始将ChatGPT植入到微软自己的各个产品当中,另外还关闭了元宇宙项目,可见一斑。即便是这样也不能说国内没有机会,肯定有但是否能把握,如:

地域优势:毕竟国内用户基数大,讯飞产品多(可以去了解讯飞的产品,早多少年前早就有AI的产品),数据也不少,如果能集合BAT那成功率大大提高,不过不太现实,原因就不用说了。

政策优势:国家大力推动人工智能,本土企业优势巨大,另外,国外平台进入国内有很多政策以及安全限制,比如,你用ChatGPT在国内做商业,数据有过境风险,这个是很大的隐患。国内公司先天性优势。

总之,机会是有,速度有多快,城墙有多高?

你觉得谁最终会胜出?

欢迎在评论区,给出您的答案。

继续阅读