天天看点

ChatGPT来袭,看中国大语言模型产业的谋划

在OpenAI发布的ChatGPT引发了科技圈的热烈讨论之后,近期,GPT-4也终于发布,登上了互联网的大舞台,而且从测试结果可以看出,GPT-4的表现比前一代又有了很大的提高 与之前的产品相比——ChatGPT(Chat Generative Pre-trained Transformer )在大范围连续对话能力、生成内 容质量、语言理解能力和逻辑推理能力上都得到显著的提升,超出了大部分人对一款聊天机器人的效果预期。

生成式AI(AIGC) 极为关键的发展节点。作为一款生成式预训练大语言模型,“Chat”指向它的功能,“Generative”代表它属于生成式 算法。生成式算法在过去数年中受制于RNN的内生缺陷始终发展缓慢,直到2017年 “Transformer”架构出现并解决了 传统RNN模型的问题,生成式AI才开始在预训练的Transformer架构之上焕发生机,NLP、CV甚至多模态领域通用基础 大模型飞速演进。在模型参数量几何级数增长以及多种训练方式的探索之中,ChatGPT横空出世,也标志着通用基础大模型将突破NLP领域以小模型为主导的传统发展范式。

ChatGPT来袭,看中国大语言模型产业的谋划

RHLF指令精调+能力涌现,让大模型说好“人话”

ChatGPT具有的惊人效果,是在超大预训练语言模型GPT-3.5基础上,进一步根据人的需求目标进行模型调优的结果。巨 大的参数量和预训练数据量让GPT-3.5成为一颗储备了大量知识,并且具备语言生成能力的混沌“大脑”,再使用人类反 馈强化学习(RHLF)的方法进行指令精调,将模型的各项能力激活,并以符合人类的需求、偏好和价值观的方式有效释 放,同时大大提升了模型应对从未见过的新指令的能力。此外,ChatGPT在逻辑推理、上下文理解等方面的能力,是模 型参数量达到该量级后“涌现”出的,即所谓的“大力出奇迹”,这一现象在其他预训练大模型中也得到了印证。

ChatGPT能力实现解析

1 基础大模型:说胡话的混沌大脑

GPT采用神经网络架构,由 128层网络和1750亿参数组成,并使用 45TB数据进行训练。此时大模型已经具备了许多能力,但是不懂得如何发挥效果。

2 模型微调:沟通体验感更相似于人类

指令精调根本目的是希望模型能够生成符合人类需求和 偏好,并且具有较高安全性和正确性的回答。在这一阶 段大量使用了人工标注的方法,同时通过形成奖励模型,让GPT能够脱离人工指引,自动通过不断地“考试”, 进行模型调优。

ChatGPT来袭,看中国大语言模型产业的谋划

3 能力涌现:大力出奇迹

大模型具有的部分能力是在模型参数量达到一定规模后突 然出现的,随着模型参数指数级增长,这些能力呈明显的 线性增长。上图演示了在提问里给出推理过程范例,模型 就能给出具有同样推理逻辑的回答(Chain of Thought) 这项能力在LaMDA、GPT和PaLM三个模型上的演变过程。

ChatGPT来袭,看中国大语言模型产业的谋划

是否存在赶超机会,中外差距短期难以追平?

与ChatGPT功能对标的大语言模型(Large Language Models, LLMs),目前国外主要有Google推出的Gopher、LaMDA 以及Meta的Llama等;国内为百度首发的“文心一言”、360发布的大语言模型、阿里发布的“通义千问”、商汤发布的 “商量”等。虽从对话和文本生成的直观体验看ChatGPT略胜一筹,但对于Google等国外大厂而言,克隆ChatGPT并不 存在太高壁垒,当前暂时落后主要是出于公司战略与技术理念差异,选择了不同技术路线,随着各家探索成果和新技术方 法的实践不断推进,仍存在对GPT系列模型赶超的可能。对百度等国内大厂而言,则在数据、算力、工程化能力等关键要 素上存在短板,短期内难以对国外领先大模型实现赶超,为跟随者角色,长期更需要国内AI全产业链整体进化。

国内外主要大语言模型发展路径对比

ChatGPT来袭,看中国大语言模型产业的谋划

服务于各公司战略业务拓展,形成差异化商业路线

商业模式上,ChatGPT已经明确指向API、订阅制和战略合作(嵌入微软Bing、Office等软件)三种营收方式,且已在用 户数据积累、产品布局和生态建设层面充分领先;Google虽有意追赶,但由于聊天机器人这样的产品形态对于其主营的 搜索引擎业务的助益有限,因此在与搜索引擎结合方面较为审慎,更希望借助大模型能力开展“模型即服务”范式,开拓 其当前市占率较低的云服务业务的市场空间。作为国内大模型的标杆企业,百度的选择与Google更为类似,“文心千帆” 产品剑指B端市场,意图带动云服务营收。

ChatGPT来袭,看中国大语言模型产业的谋划

垂直基础大厂模型厂商与应用开发厂商需在窗口期加快建立“数据飞轮”壁垒

此轮基于ChatGPT的大模型浪潮兴起伊始,结合大陆AI产业链与竞争格局现状,一种判断是:基于大模型的通用和泛化 性提高,未来手握通用基础大模型的巨头企业会逐渐侵蚀垂直领域厂商业务。这种压力长期来看的确存在,但大模型与产 品结合,尤其在非检索或开放域交互等场景中,需要依赖垂直领域数据和行业know-how、应用场景和用户数据反哺、一 站式端到端工程化能力等。在此窗口期,垂直领域与应用层厂商应积极将大模型能力整合入自己的技术栈,服务于产品功 能优化,建立“数据飞轮”壁垒。在下游丰富的基于大语言模型、AIGC应用开发需求的影响下,还将分化出一类工具型 或平台型厂商,主要提供基于各类大模型的开发平台服务,帮助客户实现便捷的AIGC应用开发与落地。

中国大语言模型产业参与厂商类型与定位逻辑

通用基础大模型厂商通 过海量数据 自研大模型 后,一般经 过垂直领域 数据调优、 缩小模型量 级首先服务 于自身业务, 达到降本增 效、提高营 收等效果。 后开放服务, 赋能B端或C 端客户

定位分化原因:

•通用基础大模型在高商业价值的内容输出 方面能力较弱且在产出结果的可信程度上不 可控,需要垂直领域know-how与数据调优;

•在数据开放度低的行业领域,如能源、政 务、金融、电力、通信等,通用基础大模型 缺少高质量数据集支撑;

•在落地实施层面上,不具备调优与二次开 发能力的企业需要端到端的大模型开发及部 署服务,以控制部署成本

来自同赛道内部和外部巨头的竞争日益激烈:

垂直基础大模型厂商:具备一定算力、资金 和技术实力的垂直赛道厂商,可基于多家开 源模型和数据,进行垂直基础大模型自研。 一般该类型厂商亦会横跨模型层与应用层

应用开发厂商:不具备充足算力和资 金的厂商,可基于API进行AIGC相关 应用产品开发,依托巨头生态打磨产 品与拓客

工具层厂商:负责承担大模型调优工作,服 务于应用开发或解决方案厂商,可能逐步向 平台型发展

•大模型改变 了AI产业的 技术流通路 径和生产方 式。在促进 AI工业化进 程的同时, 优化了应用 的产品功能、 拓宽了应用 层市场

•大模型是 AIGC产业发 展的基石

产业加速发展中,产业价值链格局初显

ChatGPT来袭,看中国大语言模型产业的谋划

GPT模型成为科技封锁和保护主义对象的趋势初现端倪

国家层面对于目前世界上最优秀(从用户生态到商业落地层面评估)的AIGC公司——OpenAI和其核心产品ChatGPT的 态度也比较慎重。比如,意大利宣布封禁ChatGPT并限制OpenAI处理意大利用户信息;大陆A股多家企业也发布公告披 露“公司未与OpenAI开展合作,ChatGPT的产品和服务未给公司带来业务收入”。

同时,ChatGPT平台也封禁大量 OpenAI账户,其中包括部分使用中文进行对话的用户。作为新兴科技生产力,ChatGPT成为科技封锁和保护主义对象的 趋势初现端倪。从大陆所处的追赶者角色看,类ChatGPT产品及其下游应用产业对于国家数字经济发展的战略意义不容 忽视。半导体产业“卡脖子”的前车之鉴发人深省,OpenAI的成功再次暴露了中美两国不仅在AI算力层面差距巨大,在AI算法和底层框架等层面也存在代际差距。大陆AIGC产业发展需立足长远战略,布局大模型技术研发、商业落地、生态建设与产业治理。

继续阅读