人工智能大模型神奇的“涌现”到底是什么？

2023年12月24日，安徽主办的全国通用人工智能创新大赛总决赛在芜湖举办。这是中国计算机学会科创大赛中，专门关注通用人工智能的，与近来大模型的突破有关。大赛吸引了全国300多个项目团队，80支队伍进入复赛，省外团队占比超80%，20支队伍晋级总决赛。

合肥中聚源智能一套关于心理健康的软硬件产品，用人工智能普适分析，对人的心理健康进行全周期的实时监护，获得比赛一等奖。除现金奖励，获奖团队在安徽落地还会得到最高3000万元的综合支持，合肥、芜湖、宿州市都有项目签约。

人工智能大模型不仅是通过对话让人们感到惊奇，已经开始有许多项目落地了。这一切的关键，是人工智能大模型出现了神奇的“涌现”，本文对这个现象进行解释。

一．人工智能再度爆火

ChatGPT引发的大模型热度不减，中国短时间内推出了超过200多个。谷歌12月6日推出的大模型Gemini爆火，视频演示让人印象深刻，但引发造假争议。

AIGC（人工智能生成内容）进展层出不穷。深圳诗云科技开发的HeyGen AI生成的短视频中，郭德纲说起了流利的英语，泰勒斯威芙特说的中文音色、口型都能对上，引发哄动。Runaway、Pika等视频图像生成软件效果很好，在中美科技圈爆火。Midjourney的图像生成已经在市场上获得了巨大成功，没有投资者，仅40个员工就实现了2亿美元年营收。游戏公司的开发流程已经改变了，原画师效率大增。AI相关的创业风投，是目前最火的，没有之一。

2023年的人工智能，火得有些出人预料。本来人们以为这会是一次“人工智能寒冬”。

Gartner新兴技术发展曲线

2016年初，Deepmind的AlphaGo下围棋战胜人类，引发了多年来最大一波人工智能热潮，人们热情一下起来了，逢会必谈。但是之后热度逐渐下降，就如许多业界人士揭示和预期的，深度学习有能力也有缺陷，不宜寄望太高。就如自动驾驶成为研发大坑，许多公司投入巨大却难于突破。人工智能创业公司估值下降，风投在找突破口。这一切看上去很“正常”，符合技术发展规律，爆火时产生的过高预期破灭，热情下降，业界人士继续积累，从低谷恢复，在远期将技术推广应用。

即使是业界人士也没想到，2023年人工智能大模型、AIGC能火成这样。360创始人周鸿祎11月30日分享了去硅谷的见闻，称“投资者对于没有AI概念、没有AI功能、没有AI成分的公司已不会考虑”，“美国在赌人工智能这件事，整个投资体系、创业体系、大公司体系、传统公司体系都在全面拥抱AI。”

从产业和技术影响来看，2023年的人工智能热潮力度，已经超过了2016年。这是有原因的，很多研究者相信，人类社会发生了几十年未见的，科学原理级的重大突破，不能凭经验用一般的技术发展曲线去评估。

这个大突破，就是人工智能大模型的能力“涌现”（emergence）。本文将从技术角度解释，什么是大模型的“涌现”，它的意义有多大。

二．深度学习是一次科学突破“涌现”

人类科学突破，最经典、最为人熟知的领域是物理。从伽利略实验、牛顿三定律开始，到20世纪上半叶相对论、量子力学成为高峰，这是科学领域最深入人心的发展历程。新的物理现象、物理定律不断被发现，多次引发科学突破，有的还带来科技与产业革命。

从20世纪下半叶开始，重大的物理发现明显减少，似乎能发现的宇宙基本规律就这些了。有些人认为，人类社会“科技停滞”了，重大科学发现、科技突破越来越少，甚至能力倒退，如航天登月。但是，如果从“涌现”的角度去分析，就会有不同的感受。

物理学曾经有很多“涌现”，技术进步让科学家们能发明创造全新的实验工具，发现让人兴奋的新现象、观测验证新理论。在量子力学初创的年代，几年内就有非常多的大突破。科学发现往往不需要太深入的认识，即使只有模糊不清的理论，只要配上合适的工具与检测仪器，就能带来大突破。20世纪之前，人们意识到物质是由原子构成的，用光谱分析等手段就发现了很多元素，而原子的微观理论仍然是不太清楚的。

物理学新现象很少了，人类科技也不会停滞。在生物、IT等领域，不断有令人兴奋的新发现，推动科技与产业进步。科学规律与现象不应该有等级高低的分别，只要能给人们带来认识世界、改造世界的新能力，都是原理级的大突破。人工智能是建构在物理知识体系之上的，但它的发现意义并不比物理基本规律要小。

人工智能大模型表现出来的能力涌现，可以类比于人类发现了电力，出现了让人激动的全新现象，是潜力巨大的基础科学发现。虽然真正理解的人还不多，但是业界人士正以几十年没见过的科学激情，探索新世界。

在人工智能超过60年的发展史上，产生过不少人们感兴趣的新现象。但往往是争议多、价值没有想象的大，明显受限于发展阶段，研发人工智能依赖的“工具”（也就是计算机硬件）能力不够。对人工智能能力的批评、对重大缺陷的揭示，一直伴随着人工智能的发展，到大模型时代仍然是如此，如机器对话中难以消除的“幻觉”。

在上世纪50、60年代，感知机等简单结构、人工编写算法程序下棋，已经让学者们意识到，人工智能（Artificial Intelligence) 是一个新的科学领域了。但由于神经网络结构过于简单、人工代码精心编写AI程序困难、算法复杂度指数上升，人工智能早期遭遇了低谷。日本80年代选择人工智能作为“第五代计算机”的突破方向，最后彻底失败，技术资料一钱不值。

感知机模型与“异或问题”

著名的“异或问题”是，明斯基等研究者指出，单层的感知机通过调整神经网络系数，可以对两个输入值的与、或、非成功输出；但不管如何调整系数，也无法输出异或的结果。理论上就不可能，其原理如上图右边的0和1在四个角交叉放置，无法划一条直线把0和1各放一边。推广来说，如果两种模式通过一个超平面“线性可分”，感知机就能训练收敛，但实际应用中绝大部分模式识别问题是非线性的。

“线性可分”的问题能用神经网络训练成功，从科学发现角度，是个新现象。上万亿个系数的大模型，其基本特性在最初的感知机中都可以找到，调整系数、加减乘除简单运算、数值结果解释输出。但这只是马后炮，由于当时的认识局限性，学界普遍把神经网络看成意思不大的“玩具”，对应1974-1980年的第一次人工智能寒冬。科学界这类例子很多，研究成果有点意思，但后面没进展就会逐渐冷下去了，很少能再热起来。

80年代，杨立昆、辛顿（加上本吉奥，三人是2018年图灵奖得主）等研究者引入多层神经网络和意义极大的“反向传播算法”（Back Propagation，简称BP），成功实现了精度足够的手写数字识别等成果，有了信封邮政编码识别、支票识别等实际应用，工业应用越来越多。由于计算机性能上升，人工代码精心编写的下棋程序能力让人印象深刻，国际象棋战胜了人类世界冠军。

这段时间的人工智能有发展，也算小有成就，但是在当时的IT大潮中，显得不太突出。这对应1987-2016年的第二次人工智能寒冬，从投资角度是可以这样理解。人们热衷于软件开发、通信、互联网、手机APP等投资方向，人工智能不算热门。

IBM的深蓝开发代价很大，战胜卡斯帕罗夫之后封存，后续发展和技术影响不大。人们认识到，靠人工代码编写人工智能算法，会被博弈问题的指数复杂度卡住，编写的专家系统逻辑能力有限，难以应对复杂问题。这种“符号主义”的发展路径，是当时人工智能的主流，顶尖成果代表业界，但是后面方向迷茫。

BP神经网络结构，一个隐藏层

后来大放光彩的深度学习、大模型，在这个阶段其基本结构和训练框架已经有了。多层神经网络前后连接，对应人工智能的“连接主义”。前向传导计算出最终节点的结果，与样本对比产生“误差”，一层层反向传播回去，用“梯度下降”等方法反复修改系数，让误差降低，优化整体的“损失函数”。这些看上去并不复杂的基本技术，通过反复训练将损失函数降到极低，就能产生惊人的模式识别效果，将手写数字等简单模式识别出来。但是这个阶段的多层神经网络，能力还是有限，稍复杂的图像模式识别问题就表现不佳，限制了技术应用。

2016年人工智能热潮忽然兴起，因为AlphaGo在极为困难的围棋问题上（符号主义无能为力）战胜了人类顶尖棋手，大大出乎预料，多少有些戏剧性。其实对业界人士来说，技术上算是水到渠成，是各种技术因素的组合成果，有传统的MCTS（蒙特卡洛树搜索）博弈搜索算法，也有深度神经网络、强化学习、对抗生成网络（GAN）等新技术运用。结果很好，但技术并不算太有突破性，是可以理解的，不少个人开发者都开发出了实力强大的围棋AI。

对业界来说，2012年的图像识别神经网络AlexNet的基础意义更大。AlexNet三人开发团队包括导师辛顿，还有两个学生，其中一人就是ChatGPT的技术核心Ilya Sutskever，他也参加过AlphaGo的开发。AlexNet依靠深层卷积神经网络，在ImageNet图像识别大赛中，错误率一举降到15%，相比其它技术的30%有了巨大突破。这是真正让业界兴奋的进展：深度学习展示了它的神奇。

深度学习让业界一举从迷茫中找到了方向。计算机硬件速度不断提升，还有GPU并行加速，训练数据量也在迅猛增加。突破了瓶颈之后，深层神经网络的能力就一下“涌现”了。短期内，深度学习成果就席卷了几乎所有科学领域，人们的经验被构建、被训练，来到各种神经网络结构中。机器翻译质量突飞猛进，人脸识别能力惊人，绘画以假乱真。这些进展其实在AlphaGo出现之前就发生了，社会知道“深度学习很厉害”这个说法，但没想太远。

这是一次真正科学意义上的“涌现”。计算机之前是作为工具帮助各科学领域的研究，主导的还是领域专业知识。但是忽然一下，各学科发现，连研究范式都变了。

这次深度学习的“涌现”，有两层意思。一层是说，随着神经网络规模、训练机器速度、样本数量不断增加，到了一定规模以后，忽然一下就“量变到质变”，神经网络能力跃升“涌现”，把图像识别效果大幅提升。第二层是说，深度学习在图像识别领域表现极好，这个能力还迅速推广到了其它计算机领域，甚至改变了其它学科，能力的应用范围也涌现了。

有意思的是，人们对AlphaGo关注极大，是因为终极意味的“智能”引发了很大兴趣。许多人想象中，一个人形机器在思考着击败了人类棋手，人类的最后堡垒“智慧”被证明不如机器，工作将被机器取代，引发了很多哲学与社会思考。但AlphaGo代表的人工智能技术，与智能本质并无太大关系，是“人工”造出来的假象，它只是巧妙地模拟了一个复杂的计算任务。社会慢慢习惯了之后，人工智能的能力边界清楚了，2018年后关于机器智能的讨论迅速降温，似乎又要回到寒冬了，投资热度下降。

当然在业界来说，自从2016年人工智能爆火之后，并没有什么寒冬。开发者积极在各种领域应用深度学习，研究者探索新的神经网络架构、训练方法，不断有各种成果出来，领域非常活跃。只是外界认为“没那么神奇”，感觉平淡了。

按照明斯基式的数学理解，这次深度学习的突破，就是用极多的系数（几百万至上亿个），构建了规模很大的数学公式，去拟合逼近了围棋、图像识别等复杂问题的解空间。从能力最简单的“直线分割平面”发展成，用规模极大形状复杂的超空间曲面去分割空间。而构建方法，是统计拟合，通过海量样本对比统计误差，反向传播修改系数减小误差，多次学习后误差降到极小，数值模拟成功。样本可以是人工标注的，也可以是自动生成的，硬件基础是GPU加速并行计算（几千个计算核心）。

笔者与人文学者交流时，把统计模拟的数学意义解释清楚，对人工智能就“祛魅”，神奇的“智能”感觉消失了。而且这个统计模拟显然会有缺陷，没有坚实的逻辑基础。它的成功是统计性的，什么时候出现bug难以预期。

就如AlphaGo3：0胜人类第一高手柯洁，被认为彻底战胜了人类，回头看很可能是有重大缺陷的。研究者通过构造“盘龙眼”这样的罕见棋形，击中了围棋AI的弱点，让无比强大的AI犯简单错误。图为2023年2月，日本职业二段芝野龙之介执黑对围棋AI绝艺的对局，黑棋诱导白棋走出一块转圈连上的棋（内部包围了黑棋一块活棋）。由于AI在训练中极少出现这样的棋形，会对棋块的死活产生错觉，最后大块走死，业界认为所有围棋AI都会有这个bug。

这种例子在各领域到处都是。以深度神经网络为基础的模式识别，会有难以消除的缺陷，应用于自动驾驶等安全领域会有很大的麻烦。某种程度上，这也是“第三次人工智能寒冬”说法的技术根源，达不到预期，一些研究者感到迷茫。

三．第二次人工智能“涌现”：大模型

正当业界普遍以为工人智能短期不会再有巨大突破时，更大突破却来了！

2022年底ChatGPT、GPT4接连引爆关注，全球IT大公司紧急购买英伟达GPU开发大模型。这次人工智能的表现，在业界看来，是真正接近了“智能”的本意，虽然还有争议。外界因为2016年来过一次热潮，有过寄望过高的“教训”，反而不是很“狂热”。

人工智能的突破，往往是从一些看似简单的任务开始。这次的大模型，就是从一个“简单”的任务开始：预测下一个词说啥。“语言大模型”的基本操作，就是一个接一个地往外吐词，形式上就是这么简单。过去的聊天机器人、作诗机，人们也见识过，并没有太特殊，没想到在这个领域发生了巨大突破，可能会产生真正的“智能”。

只学习人类的语言，机器是否能学成真正的智能，这有争议，杨立昆就强烈否认。但这是“AI哲学”的范畴，可以先不管，看看机器学习海量的“语料”会发生什么。

GPT是Generative Pre-Trained Transformer，我们来看看具体的意思。Transformer就是一种神经网络结构，2017年发明后，在机器翻译这个任务中证明了能力，它并不复杂，只是数量特别多，用来存放几千亿个系数。Generative是生成式，GPT会生成对话文字等内容，近期爆火的图片、视频软件也都是生成式应用。Pre-Trained是“预训练”，一个理解就是把整个互联网那么大规模的语料文本，交给Transformer去学习，后来又增加了语音、视频材料，多模态。语料甚至不用人工标注（选择去除有害内容是另一回事），预训练就是让GPT预测文本语料中的下一个词，不准就反向传播调整系数。

这个任务听上去很简单，但是想想看，GPT会从中学到什么？这就不简单了。要注意，研究者将机器的存储与训练“算力”狠狠扩张，足以处理整个互联网这么多的语料。

一个传统观察是，学习语料，能让机器学到“语法”和“语义”。在NLP（自然语言理解）领域的机器翻译任务，人们就深有体会，研究者用人工代码去实现语法、对单词建立对应关联，是死路一条，翻得很丑陋。而机器对着训练文本自动学习，就能把一门语言的语法、单词间的语义关联建立起来，翻译得象模象样。它知道一些单词互相是有关系，经常一起出现，出现时有什么条件，这些关系都记在神经网络系数中。Transformer数据结构就是能对一句话中的单词，方便地建立关联。

即使机器翻译得很好了，人们也知道，机器并不理解这些话是什么意思。按数学理解，机器是把一段话用encoder编码了，然后再用decoder解码成另一种语言。它是一种编码、解码的算法，调试好让人们觉得翻译得不错。实际上，在翻译机器看来，它面对的只有一些“token”（记号），这些token互相有关联，实际是什么它不用知道。就象有确定答案的围棋一样（完全信息博弈），翻译的输出也是相对确定的，是较为“容易”的任务（人类总是这样，解决了就认为容易了）。

但是GPT预训练的任务不是翻译，而是预测下一个token。这比翻译得象样要难得多，想让接下来的文本序列合理（这样才会与人类语料大概率相符），它需要了解“事实”，甚至学会“推理”！这时，在人工智能领域，就“涌现”了真正让人震惊的科学新现象。

以中国大模型中能力排前的科大讯飞“星火大模型”为例，它面对“从西安开车30分钟为什么没到北京”的问题。在语料中不会有直接的答案，就需要对问题进行分解。理解“开车没到”相关语料，就会引入“时间”与“距离”，然后再根据距离，去关联西安与北京，还要引入“速度”，最后组合出的答案。这个过程，直觉上就不简单，从形式上真的象是在推理。

在ChatGPT与GPT4的应用中，有极多这样的案例，让人们相信机器是真的有强大的推理能力了。OpenAI的人说，有时不知道GPT4是怎么推出来，里面的机制真的很神奇。

当然GPT也有很多逻辑缺陷，人们诱导出机器离谱的回答不难。但是从科学发现的角度看，新现象可以重复，即使应用需要条件、有缺陷，也是很不错的实质突破。在以前，研究者认为聊天机器人只是形式上的语言模仿者（现在也有很多人这样看GPT），从未发现机器有如此强大的推理能力。看多了GPT的对话，明显能感觉到，机器的数据结构中，真的蕴含了推理能力，不可能靠模仿出来。

对“新现象”兴奋，而非更关注离谱的缺陷，正是研究者区别于普通人的特质。外界会要求补掉严重缺陷，否则就没有通过图灵测试，应用时不敢相信。但研究者会对机器表现出来的新能力更关注，知道这里有“新世界”。物理学家对于可能的“新物理”极为关注，有点蛛丝马迹都扑上去一堆分析，往往是失望。人工智能研究者当然会关注“机器推理能力是如何产生的”这类问题，所以大公司都疯狂了，都扑上去了。研究大模型需要的算力、存储、资金等硬条件太高，比深度学习要高多了，否则研究者会更多。但中美两国的大模型数量已经非常多了，这种“大发现在前方”的集体兴奋是从未有过的。

短短10年内，人工智能领域就出现了两次科学原理级别的“涌现”，深度学习一次，大语言模型一次。也许外界不清楚意义，但业内人士真的产生了前所未有的热情。

大模型是如何学会推理的？这也是可以描述的。一个类似的例子，是围棋AI学会“征子”。AI的训练是不断进步的，一套“权重”对应一个版本。象围棋这种有胜负的游戏，可以让AI从什么也不会开始，让各版本“自对弈”对战，并根据对战结果改进权重，表现好的权重成为胜利者继续发展。这个训练可以是分布式的，LeelaZero就是由众多爱好者贡献机器自对弈更新权重的。

在训练中，爱好者们明显发现，常规的围棋战术，如打吃、提子、逃跑，AI各版本能很快学会，但是征子却很难学会。因为它涉及相隔很远的棋子之间的斜向关系，能不能扭来扭去吃掉，对AI很难。但时间长了，就会有某个幸运的权重版本，学会了判断征子，而且会利用这个能力，对其它不会征子的版本大杀四方。学会征子，围棋AI的神经网络结构要足够大，如20层可以10层不够，要训练很多盘自对弈。

GPT的预训练实现推理能力，也是这样的。首先网络结构的规模要大，OpenAI从GPT2到GPT3、GPT4不断扩大规模，几千亿个系数，规模够了。然后训练语料要多，训练时间要长。剩下的，就是看GPT的能力怎么逐渐冒出来，和围棋AI的自对弈训练一样，简单的能力先学会，复杂的后学会。

让人震惊的科学发现是：GPT3非常成功，它在预训练中学会了很复杂的推理！这就如同AlexNet对于深度学习的意义，GPT3让业界认识到了大语言模型的极大潜力。

可以这样理解，有一些GPT预测文本的任务，如果不会推理，肯定是做不好的。做不好，“损失”数值会比较大。GPT反复训练，不断用各种办法修改权重，试图降低“损失”，最终在某个时刻，把“损失”降下去了。而这就等价于，GPT具备了推理能力，输出像模像样了。

其实人类学习推理也是这样，你会了，考试就能过，不然就过不了，蒙不过去。至于人类怎么学会的，每个人有自己的方法，考试和应用才是评判标准。哲学上，如果说机器不是在推理，是在计算模仿，不是智能，这说不清。公平的评判就是，机器完成了需要推理的任务，那就是有了堆理能力，并且掌握了很多推理需要的“事实”。

OpenAI没有按常规发论文公布GPT3、GPT4的技术细节，有些训练技术人们只能猜测。但业界人士总会有互相交流，员工也会被挖走，技术不可能一直是独家的。因此GPT训练技术就是在扩散，一些认知逐渐成为业界共识。GPT的成功在于搞出了“涌现”，这就是业界的共识。

这次GPT的涌现，还特别有哲学意味，比深度学习那次的涌现，有更多可以说的。

1. 类似于深度学习，网络规模、语料、机器速度、训练时间不断增长，最终新的能力就涌现了，量变引发质变。这是常规的预期，人们之前只是不确定，基于Transformer的GPT能否成功，不想极大投入。这一关已经过了，无数公司愿意砸大钱了。

2. GPT的预训练是在试图降低“损失”，这个损失函数值是统一的。但不同于AlexNet的单一任务，GPT实际是有很多任务的文本输出表现要提升。它可能某些场景对话难度低，表现得不错，另一些场景要考验复杂推理，甚至数学能力，就表现糟糕。GPT的涌现，并不是一次性的，而是各种类型的任务能力，从易到难，逐渐提升。也就是说，GPT的涌现，现象本身就很有多样性，有很多值得探索的细节。例如某类任务的能力忽然涌现了，即使损失函数看上去差别不大，这对其它单任务训练来说是新鲜的。再例如人们发现GPT的逻辑能力让人印象深刻，但是涉及数学就要差不少。

3. GPT的涌现，还没有达到终点。当人们发现“量变引发质变”的好事发生时，已经很激动了，也许只是几个小任务的成功，就能让人们确信这一点。但继续训练，就会发现好事越来越多，人类文本蕴含的任务种类实际是无穷无尽的，难度会越来越大，考验非常多种能力。GPT框架到底有多强大，人们还说不清，这种未知感更让人兴奋。人们就象在山洞里寻宝，知道有宝贝，是什么类型的不知道，这反而会招来更多寻宝者。深度学习的涌现，就容易判断，能力有了，但再训练也不会更好了，整个过程都熟悉了。

4. GPT的规模，还应该继续扩大，从千亿参数扩展到万亿参数，乃至更高。一般的深度学习任务，网络规模够了就行，再扩大也意义不大，反而可能“过拟合”。但是GPT要记忆人类社会的“事实”信息，几千亿个系数规模显然不够。虽然它可以进行“信息压缩”，但这肯定会损失信息。另一个直觉是，网络规模扩大后，GPT的“潜能”也会增加，在复杂的启发式知识海洋中游荡，发现深层的相关性。

看了以上的GPT涌现特性就能明白，研究者的兴奋是超过深度学习那一波的。一些激进的学者认为，GPT架构就蕴含了真正的智能，真的开始思考人类被机器毁灭的事。一个有些奇怪的事是，OpenAI花了相当多的精力去进行AI安全的研究，甚至导致公司内部“政变”式动荡。GPT的涌现，确实很有人类的智慧特性，多样、复杂、难以预测、潜力无限。因此，这肯定是人工智能乃至整个科学研究领域，最接近“通用人工智能”（AGI）的一次。也能明白，为何学者们在认真讨论GPT相关的“AI哲学”问题。

外界对于GPT的涌现不够了解，容易低估它的科学发现意义。很多人就是关注各类GPT的聊天表现，ChatGPT和GPT4强大，国产的有差距。有些人对AI聊天中表现的强大推理能力赞叹，或者对AI聊天象模象样地胡编乱造撒谎感到震惊。外界容易有一种倾向，似乎对GPT的研究，主要就是让它聊得更好，更没有破绽。

实际上，对于GPT的研究核心，应该是探索更多的“涌现”细节。微软、谷歌等大公司，在试更大的模型，直接目的，并非是想让机器人聊得更好，而是探索令人着迷的“涌现”。也许通过不断催生GPT的涌现，最终通向了AGI，也许如杨立昆预测的，这条路不通。但无论如何，现在不是关注缺陷、完善产品的时候。也许等GPT的能力边界探索清楚了，开发者就可以回过头来，用能力去开发、想办法避免缺陷。

值得注意的是，2022年初GPT3已经出现了很成功的“涌现”，甚至GPT4在2022年8月就已经预训练出来了，但只有少数专业人士惊叹，没有爆火。直到ChatGPT（GPT3.5）通过RLHF（人工反馈的强化学习），将输出语言调试得让人类感觉舒服，才在2022年底引爆了全球关注。

这说明人类很容易受“表象”的影响，即使是专业研究者也未能免俗。深度学习是真的“涌现”突破，但是在新闻界远不如AlphaGo与人类对战轰动。GPT3、GPT4的预训练是让“涌现”不断出现的研发框架，潜力无限，但是RLHF的效果外界更关注。

对于国产大模型也是如此，上百家在开发，应该关注GPT的“涌现”。即使一些国产大模型因为资金和硬件条件有限，规模不是很大，对模型特性的探索也是有益的，能够发现GPT涌现的特性，也许能加速涌现的发生。不用太在意国产大模型的缺陷，这无法避免，原因可能有多种，语料准备不够、训练时间不够、算法细节问题。搭起了大模型研发框架，探索“涌现”的细节，总会有收获。

对于大模型的应用生态，如果对GPT的“涌现”特性有了解，也许会有不同的感觉。不应该把大模型当成聊天机器人，这限制了想象力。GPT涌现出的推理、数学、信息压缩、多模态、内容生成等多种能力，这打开了全新的研发架构。就象深度学习，它既是探索框架，也是应用架构。

美国IT大公司正试图用GPT改造整个软件体系。大公司会象军备竞赛一样，继续扩大GPT的规模。更为普遍的行为，是开发工具链，将GPT应用做起来，让开发者能够加入进来，在各行各业应用GPT涌现出的能力。而后者才是中国更应该学习，也是有优势的领域。

对于国产大模型的基础能力，笔者并不担心。例如科大讯飞的星火大模型3.0，评测认为接近ChatGPT的水平，准备2024年5月推出接近GPT4的星火AI 4.0。大模型评测是一个重要研究领域，标准还不是很统一，但显然国产大模型能力在快速进步，与美国的差距说多了也就是2年。

对于某个问题，如果国产大模型的回答不如ChatGPT、GPT4质量好，舆论就会很关注。其实更应该关注“涌现”，如果中国公司的研发架构，能让各类涌现不断发生的，那么本质上中美就在同一个赛道竞争。也许美国大模型已经实现了4级涌现，中国还只能3级，美国公司还消除了更多的bug，这会让差距显得很大。随着中国公司对“涌现”的研究越来越深入，差距都会补上。

真正影响大的，是大模型的应用生态。没有生态，公司的大模型研发最终会难以为继，即使OpenAI也觉得大模型开发、运维太花钱了。如果中国公司做起大模型应用生态了，就能迭代开发，针对性地改进行业应用中的缺陷，这是中国公司的拿手好戏。有些应用能成功，即使基础技术不那么强，但抓住了行业痛点，应用推广了，生态做起来了，反过来又带动基础技术提升。

安徽的通用人工智能发展规划对此理解较深，2025年要“充裕智能算力建成、高质量数据应开尽开、通用大模型和行业大模型全国领先、场景应用走在国内前列、大批通用人工智能企业在皖集聚、一流产业生态形成”。

中国的产业发展历史，本身就是一个不断“涌现”的过程。2000年以后，中国的众多产业奇迹一般地不断崛起。笔者从2013年起就一直鼓吹的安徽省会合肥，是全球城市增长最快的，2022年GDP相比2000年增长了37倍，本来产业没什么特色，却涌现出了多个千亿产业集群，如新型显示、集成电路、新能源汽车。

即使已经鼓吹多年，仍然会不断被合肥与安徽的发展震惊。如安徽2023年汽车产量249.1万辆，成为全国第二（广东遥遥领先）。这次通用人工智能大赛在芜湖举办，当地的奇瑞2023年生产了188万辆汽车，自主品牌与出口都爆发增长了，2024年要冲击400万辆。合肥2022年新能源汽车产量25.5辆，同比增133%，2023年74.6万辆，再增140%。合肥布局很好，比亚迪、大众、蔚来都来了，目标是2025年新能源汽车产量200万辆、2027年340万辆！

用GPT来类比，中国的发展机制在改革之后，换成了Transformer（这个词就有变革的意思），就发生了不可思议的产业“涌现”。

了解了GPT的“涌现”，再看美国政府打压中国人工智能，连4090显卡 GPU都不让卖了，就能明白，美国政府这是赌了，认为通用人工智能会有大突破。美国商务部长雷蒙多赤裸裸地说，要拖慢中国人工智能的发展。

但是中国已经有准备了，华为、科大讯飞等企业成为人工智能行业与美国斗争的排头兵。科大讯飞因为被美国放入实体名单，花了小半年的努力去适配国产GPU，这在全国是领先的。华为云建设了3大AI算力中心，其中一个就是在安徽芜湖。

产业发展是有惯性的，已经实现产业“涌现”的，在新兴产业政策的规划、实施上就有优势。通用人工智能的发展，笔者同样祝福、看好安徽。

■ 扩展阅读

中美汽车竞争？不存在的 | 陈经

清华光电融合芯片算力是GPU的3000多倍？媒体搞出的大新闻 | 陈经

没人能“杀死”1.5万亿美元的英伟达 | 陈经

学习中国建立大市场内生增长模式，我们需要正视印度经济崛起 | 陈经

■ 作者

陈经

获中国科学技术大学计算机科学学士，香港科技大学计算机科学硕士，科技与战略风云学会会员，《中国的官办经济》作者。

人工智能大模型神奇的“涌现”到底是什么？ | 陈经

继续阅读

讯飞星火首发智能体平台，敏捷触达大模型应用企业落地最后一公里

字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

北大 | CLIP模型语义信息与3DGS，对3D场景的实时、精确语义理解

上交 | OccGen：生成式3D语义占用预测模型在自动驾驶领域新突破

萍声细语（52）：精读期刊论文-模型构建和模型分析部分

牛来了？外资集体做多A股，量子技术和人工智能成大风口丨蒋衍看盘

24fall格拉斯哥大学招收全奖博士生人工智能/数据驱动/机器人方向

支持130亿参数大模型领跑行业，联发科发布最强智能座舱芯片

“模”不关心 or“模”逆之交：论交通大模型乱世发展趋势 | YEF2024

张瑾：人工智能与商业变革

讯飞星火首发智能体平台敏捷触达大模型应用企业落地的最后一公里

星尘智能发布AI机器人，操作能力满分，大模型加持

喜马实践：模型时代的音频剪辑方式-云剪辑按字剪辑

喜马广告算法优化实践(一)：广告CVR模型演进历程

当「养老」遇上 AI 大模型

STAR模型：解锁人生成功的四把金钥匙