天天看点

科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线

作者:36氪

作者|武静静

编辑|邓咏仪

1月30日,科大讯飞发布新升级的讯飞认知大模型星火V3.5,并发布了自研的语音大模型,以及星火开源大模型——星火开源-13B。

过去一年,科大讯飞的重点都在大模型方向上,临近岁末放出大量更新,某种程度也展示了讯飞的投入决心。就在1月29日,公司发布了2023年业绩预告:预计营收为200亿元,比2022年增长了7%。不过,由于大模型方面的巨大投入,公司的净利润有所下降,2023年公司预计(扣除非经常性损益后)净利润在0.8亿元-1.2亿元区间,比2022年下滑了70%以上。

科大讯飞称,讯飞星火V3.5基于全国产化算力底座飞星一号平台打造,是首个基于全国产化算力平台训练的全民开放大模型。升级后的讯飞星火V3.5在逻辑推理、语言理解、文本生成、数学答题、代码、多模态等七大能力上均有提升。

升级之后,讯飞星火的文本生成能力和数理运算能力都有提升,可以轻松回答初三的数学物理题。

现场演示中,对“前进20米、右转60 、反复下去能否回到原点,如果能回到,需要多少米”这一问题,星火V3.5都可以轻松应对。

整体参数上,星火V3.5在语言理解、数学能力已超过GPT-4 Turbo,代码能力和多模态理解能力,都已达到GPT-4V能力的90%以上。

科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线

星火V3.5与GPT能力对比

依靠星火V3.5的新升级,科大讯飞也发布了新的AIGC工具“讯飞智文”。

在现场,科大讯飞同样进行了实时演示。依据给定的文档信息,讯飞智文可以用20秒时间,快速制作出一套几十页PPT的新升级技能。PPT生成之后,还可以配备专业的虚拟人对PPT进行讲解。

PPT生成能力依靠的是星火V3.5的要素抽取、概念理解、知识推理、问题生成、图文生成能力。星火V3.5不仅可以逻辑化处理文档信息,还可以让大模型提供更多文档之外的增量信息,拓展PPT内容的深度。

科大讯飞也发布了新的多模态模型进展。

新发布的“星火语音大模型”,基于大语言模型框架,结合讯飞语种、音色、内容等多维度语音属性解耦表征预训练而成。它可以实现多语种并达到超拟人的语音合成效果。其首批40个语种平均MOS分(评估音频或视频质量的一种标准,5分为最高)提升了0.25,拟人测试中MOS达到4.5分,拟人度达到83%,拟人语音合成能力超越ChatGPT。

科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线

星火语音大模型

开源方向上,此次科大讯飞发布了星火开源-13B(iFlytekSpark-13B)模型。该模型为130亿参数,经过3万亿以上tokens海量高质量数据集上进行预训练,具备聊天、问答、文本提取、数据分析和代码生成等功能。

科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线

星火开源大模型

同时,科大讯飞也基于星火V3.5的大模型能力,全线升级了翻译机、录音笔等硬件产品以及to B业务。

新推出的星火智慧黑板,是基于星火大模型打造的一款AI硬件产品。这款智能黑板具备多模态理解与推荐、全自然交互、虚拟人辅助教学、智慧化录课等多种功能,能够让知识的讲解更直观,让老师授课更便捷,也把名家如爱因斯坦等以虚拟人的形式搬进了课堂,辅助学生更高效的学习。

科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线

星火智慧黑板

瞄准大模型在B端落地场景,科大讯飞不仅升级星火通用大模型,还优化了大模型相关的一系列套件服务。

底层,星火通用大模型有13B、65B、175B等多种尺寸,支持异构算力调度,行业大模型方面上,星火的全链条工具链可以行业大模型训练效率提升90%,支撑企业主流场景的应用优化。

目前,星火大模型已经在能源、政务等场景落地。

科大讯飞大模型新升级:20秒制作PPT,拟人语音能力超越ChatGPT|最前线

星火大模型to B应用框架

关于未来计划,科大讯飞称,接下来会继续发力提升模型能力,将会在2024年上半年,全面对标GPT4,发布讯飞星火4.0也将发布。