天天看点

科大讯飞刘聪:大模型是一个体系,包含在“721模式”全阶段

作者:男孩发型
科大讯飞刘聪:大模型是一个体系,包含在“721模式”全阶段

在这一波AI浪潮中,科大讯飞已经走在了前列。

作为中国对AI投入最早的大厂之一,科大讯飞踩对了节奏,这让它在“百模大战”中的知名度迅速提升。尤其值得一提的是,科大讯飞已宣布,讯飞星火认知大模型面向全民开放。

作为国内知名的AI厂商,科大讯飞凭借其深厚的技术积累和不断的创新精神,一直是国内AI领域的佼佼者。而这次讯飞星火认知大模型面向全民开放,更是标志着科大讯飞在AI领域的开放与普惠的理念又向前迈进了一大步。

对于创新的投入,科大讯飞一直是不遗余力。近十年来,科大讯飞每年的研发投入占营收比重大约在20%。

在技术研发层面,科大讯飞坚持“721模式”:70%投入到当前的主导产品,20%投入到战略新产品,10%投入到前瞻性、探索型、不追求一定要有回报的研发中去。在科大讯飞研究院院长刘聪看来,大模型是一个体系,在不同阶段都有,因此包含在“721模式”全过程中。

据本刊了解,刘聪出生于1984年,中国科学技术大学毕业后就入职讯飞,如今已是管理千人团队的讯飞研究院院长。在2023年世界人工智能大会上,科大讯飞当选国家人工智能大模型标准化专题组的六家联合组长单位之一,刘聪代表讯飞出任组长。

在讯飞,承担AI研发主力正是刘聪带领的讯飞研究院。

以下为本刊采访内容,以飨读者:

本刊:对于讯飞星火2.0的这一次的升级实现的可用度和好用度,从你的角度来讲,你觉得可以打多少分?

刘聪:我重点说一下这次升级的代码能力。先解释一下为什么8月15日的发布会上,我们先演示了讯飞星火的代码能力和相关产品。刘总(科大讯飞董事长刘庆峰)在5月6号的发布会首先发布的就是讯飞星火的通用能力,而通用能力的维度里,有一个重要能力就是代码能力。

根据OpenAI构建的代码能力公开测试集HumanEval显示,星火V1.5 Python语言的效果只有41分,但是V2.0已经到了61分,接近ChatGPT。根据认知智能全国重点实验室构建的代码真实场景使用的测试集,讯飞星火认知大模型V2.0在代码生成和补齐维度上已经超过了ChatGPT。这些客观的指标可以呈现给大家看。

所以,我们可以站在场景、站在使用者的角度去看,基于代码能力提升所推出的智能编程助手iFlyCode 1.0围绕程序员所需要的场景功能去设计,并且持续做产品的优化迭代。

本刊:讯飞星火2.0在8月13号才开放内测,在这个过程中有没有出现一些之前没有预料到的难题,导致可能中间会有一些困难,讯飞是怎么去解决的?

刘聪:第一,代码能力的提升其实比大家想象的难度更高。如果我想提升代码的能力,它有可能会对大模型其他的能力造成影响。因为讯飞星火是一个统一基础大模型实现所有的功能,这才是我们讲的对标通用人工智能的目标。

其次,这次重点升级的多模态能力。可能大家对多模态的理解不是特别深,GPT-4在今年3月14号就发布了多模态理解能力,但是它到现在还没有全面地放开。

我们8月15日展示的多模态能力还不错,但如果大家尝试一下有些很复杂的图,讯飞星火的理解可能不是那么好。如果想要真正做到将语音、图像、视频等模态对齐到统一语义空间中,实现语义的贯穿、衔接,这是一个很复杂的问题。

再进一步,就是我之前经常说道的叫系统性创新,多种模态、类型的大模型,最终目标在哪里?怎么去实现多种功能,怎么把各个模块衔接融合,特别是讯飞星火这种功能较全的多模态能力,想象一下就更复杂了。

当然,最后成果整体还是符合预期的,中间可能会有部分调整的过程。最终大家顶住压力,能把现在这样一个整体产品的阶段性成果拿出来,我觉得作为我个人来说是比较自豪的,当然很多部分也还需要持续优化。

本刊:基础大模型能力趋同,您怎么看待这一问题?

刘聪:我想从两方面回答。第一,不要看大家说什么,看大家做什么,不要光是听什么,要去体验。

刘庆峰董事长在发布会上强调的那句话,我觉得非常之准确,叫做言之有物,这个是非常关键的一点。即使像因为文本生成,客观来讲,不同人对文本生成的要求是不一样的,我们还是要客观看到具体任务跟当前效果最好的模型差别在哪里。

第二,我觉得还是要看站在什么层面去看这个事儿。对于讯飞来说,我们一开始就是奔着通用人工智能的目标去的。哪些方面的能力要突破到什么程度,怎样的水平能够达到实际应用,我们更关注的是落地是否能产生价值。

本刊:讯飞研究院有一个技术研发策略是“721”,就是70%要投入当前支撑公司的业务,20%是战略新产品,10%是前瞻技术,不追求回报。大模型对于我们现在的情况来说,它是7是2还是1?过去几年,大模型在我们研究策略过程中有没有什么变化?

刘聪:我个人理解大模型可能“721”都包含,它是未来我们一个底座、一个框架。首先,当大模型整个训练流程走通了之后就要去覆盖更多的通用能力,提升更多的场景,这个可能是7的部分。

当然,我们一般会选比较优势的行业去找到一些拓展应用场景,以及继续深入多模态能力进行提升,我可能会把它归成2,这里面当然也要有1的部分。

所以,这个问题我的理解是大模型是一个体系,它在不同阶段都有。

本刊:智能编程会让开发者的角色发生什么样的变化?未来核心的竞争力体现是在哪些方面?

刘聪:我觉得至少是两个维度。

第一,就是持续提升开发者自己所关注的编程开发的能力。

第二,在开发者日常工作中帮助提高效率,能把大家的精力解放出来去做提升生产力、释放想象力这些创造性的工作。

继续阅读