天天看点

人工智能大模型神奇的“涌现”到底是什么? | 陈经

作者:袁岚峰

2023年12月24日,安徽主办的全国通用人工智能创新大赛总决赛在芜湖举办。这是中国计算机学会科创大赛中,专门关注通用人工智能的,与近来大模型的突破有关。大赛吸引了全国300多个项目团队,80支队伍进入复赛,省外团队占比超80%,20支队伍晋级总决赛。

合肥中聚源智能一套关于心理健康的软硬件产品,用人工智能普适分析,对人的心理健康进行全周期的实时监护,获得比赛一等奖。除现金奖励,获奖团队在安徽落地还会得到最高3000万元的综合支持,合肥、芜湖、宿州市都有项目签约。

人工智能大模型不仅是通过对话让人们感到惊奇,已经开始有许多项目落地了。这一切的关键,是人工智能大模型出现了神奇的“涌现”,本文对这个现象进行解释。

一.人工智能再度爆火

ChatGPT引发的大模型热度不减,中国短时间内推出了超过200多个。谷歌12月6日推出的大模型Gemini爆火,视频演示让人印象深刻,但引发造假争议。

AIGC(人工智能生成内容)进展层出不穷。深圳诗云科技开发的HeyGen AI生成的短视频中,郭德纲说起了流利的英语,泰勒斯威芙特说的中文音色、口型都能对上,引发哄动。Runaway、Pika等视频图像生成软件效果很好,在中美科技圈爆火。Midjourney的图像生成已经在市场上获得了巨大成功,没有投资者,仅40个员工就实现了2亿美元年营收。游戏公司的开发流程已经改变了,原画师效率大增。AI相关的创业风投,是目前最火的,没有之一。

2023年的人工智能,火得有些出人预料。本来人们以为这会是一次“人工智能寒冬”。

人工智能大模型神奇的“涌现”到底是什么? | 陈经

Gartner新兴技术发展曲线

2016年初,Deepmind的AlphaGo下围棋战胜人类,引发了多年来最大一波人工智能热潮,人们热情一下起来了,逢会必谈。但是之后热度逐渐下降,就如许多业界人士揭示和预期的,深度学习有能力也有缺陷,不宜寄望太高。就如自动驾驶成为研发大坑,许多公司投入巨大却难于突破。人工智能创业公司估值下降,风投在找突破口。这一切看上去很“正常”,符合技术发展规律,爆火时产生的过高预期破灭,热情下降,业界人士继续积累,从低谷恢复,在远期将技术推广应用。

即使是业界人士也没想到,2023年人工智能大模型、AIGC能火成这样。360创始人周鸿祎11月30日分享了去硅谷的见闻,称“投资者对于没有AI概念、没有AI功能、没有AI成分的公司已不会考虑”,“美国在赌人工智能这件事,整个投资体系、创业体系、大公司体系、传统公司体系都在全面拥抱AI。”

从产业和技术影响来看,2023年的人工智能热潮力度,已经超过了2016年。这是有原因的,很多研究者相信,人类社会发生了几十年未见的,科学原理级的重大突破,不能凭经验用一般的技术发展曲线去评估。

这个大突破,就是人工智能大模型的能力“涌现”(emergence)。本文将从技术角度解释,什么是大模型的“涌现”,它的意义有多大。

二.深度学习是一次科学突破“涌现”

人类科学突破,最经典、最为人熟知的领域是物理。从伽利略实验、牛顿三定律开始,到20世纪上半叶相对论、量子力学成为高峰,这是科学领域最深入人心的发展历程。新的物理现象、物理定律不断被发现,多次引发科学突破,有的还带来科技与产业革命。

从20世纪下半叶开始,重大的物理发现明显减少,似乎能发现的宇宙基本规律就这些了。有些人认为,人类社会“科技停滞”了,重大科学发现、科技突破越来越少,甚至能力倒退,如航天登月。但是,如果从“涌现”的角度去分析,就会有不同的感受。

物理学曾经有很多“涌现”,技术进步让科学家们能发明创造全新的实验工具,发现让人兴奋的新现象、观测验证新理论。在量子力学初创的年代,几年内就有非常多的大突破。科学发现往往不需要太深入的认识,即使只有模糊不清的理论,只要配上合适的工具与检测仪器,就能带来大突破。20世纪之前,人们意识到物质是由原子构成的,用光谱分析等手段就发现了很多元素,而原子的微观理论仍然是不太清楚的。

物理学新现象很少了,人类科技也不会停滞。在生物、IT等领域,不断有令人兴奋的新发现,推动科技与产业进步。科学规律与现象不应该有等级高低的分别,只要能给人们带来认识世界、改造世界的新能力,都是原理级的大突破。人工智能是建构在物理知识体系之上的,但它的发现意义并不比物理基本规律要小。

人工智能大模型表现出来的能力涌现,可以类比于人类发现了电力,出现了让人激动的全新现象,是潜力巨大的基础科学发现。虽然真正理解的人还不多,但是业界人士正以几十年没见过的科学激情,探索新世界。

在人工智能超过60年的发展史上,产生过不少人们感兴趣的新现象。但往往是争议多、价值没有想象的大,明显受限于发展阶段,研发人工智能依赖的“工具”(也就是计算机硬件)能力不够。对人工智能能力的批评、对重大缺陷的揭示,一直伴随着人工智能的发展,到大模型时代仍然是如此,如机器对话中难以消除的“幻觉”。

在上世纪50、60年代,感知机等简单结构、人工编写算法程序下棋,已经让学者们意识到,人工智能(Artificial Intelligence) 是一个新的科学领域了。但由于神经网络结构过于简单、人工代码精心编写AI程序困难、算法复杂度指数上升,人工智能早期遭遇了低谷。日本80年代选择人工智能作为“第五代计算机”的突破方向,最后彻底失败,技术资料一钱不值。

人工智能大模型神奇的“涌现”到底是什么? | 陈经

感知机模型与“异或问题”

著名的“异或问题”是,明斯基等研究者指出,单层的感知机通过调整神经网络系数,可以对两个输入值的与、或、非成功输出;但不管如何调整系数,也无法输出异或的结果。理论上就不可能,其原理如上图右边的0和1在四个角交叉放置,无法划一条直线把0和1各放一边。推广来说,如果两种模式通过一个超平面“线性可分”,感知机就能训练收敛,但实际应用中绝大部分模式识别问题是非线性的。

“线性可分”的问题能用神经网络训练成功,从科学发现角度,是个新现象。上万亿个系数的大模型,其基本特性在最初的感知机中都可以找到,调整系数、加减乘除简单运算、数值结果解释输出。但这只是马后炮,由于当时的认识局限性,学界普遍把神经网络看成意思不大的“玩具”,对应1974-1980年的第一次人工智能寒冬。科学界这类例子很多,研究成果有点意思,但后面没进展就会逐渐冷下去了,很少能再热起来。

80年代,杨立昆、辛顿(加上本吉奥,三人是2018年图灵奖得主)等研究者引入多层神经网络和意义极大的“反向传播算法”(Back Propagation,简称BP),成功实现了精度足够的手写数字识别等成果,有了信封邮政编码识别、支票识别等实际应用,工业应用越来越多。由于计算机性能上升,人工代码精心编写的下棋程序能力让人印象深刻,国际象棋战胜了人类世界冠军。

这段时间的人工智能有发展,也算小有成就,但是在当时的IT大潮中,显得不太突出。这对应1987-2016年的第二次人工智能寒冬,从投资角度是可以这样理解。人们热衷于软件开发、通信、互联网、手机APP等投资方向,人工智能不算热门。

IBM的深蓝开发代价很大,战胜卡斯帕罗夫之后封存,后续发展和技术影响不大。人们认识到,靠人工代码编写人工智能算法,会被博弈问题的指数复杂度卡住,编写的专家系统逻辑能力有限,难以应对复杂问题。这种“符号主义”的发展路径,是当时人工智能的主流,顶尖成果代表业界,但是后面方向迷茫。

人工智能大模型神奇的“涌现”到底是什么? | 陈经

BP神经网络结构,一个隐藏层

后来大放光彩的深度学习、大模型,在这个阶段其基本结构和训练框架已经有了。多层神经网络前后连接,对应人工智能的“连接主义”。前向传导计算出最终节点的结果,与样本对比产生“误差”,一层层反向传播回去,用“梯度下降”等方法反复修改系数,让误差降低,优化整体的“损失函数”。这些看上去并不复杂的基本技术,通过反复训练将损失函数降到极低,就能产生惊人的模式识别效果,将手写数字等简单模式识别出来。但是这个阶段的多层神经网络,能力还是有限,稍复杂的图像模式识别问题就表现不佳,限制了技术应用。

2016年人工智能热潮忽然兴起,因为AlphaGo在极为困难的围棋问题上(符号主义无能为力)战胜了人类顶尖棋手,大大出乎预料,多少有些戏剧性。其实对业界人士来说,技术上算是水到渠成,是各种技术因素的组合成果,有传统的MCTS(蒙特卡洛树搜索)博弈搜索算法,也有深度神经网络、强化学习、对抗生成网络(GAN)等新技术运用。结果很好,但技术并不算太有突破性,是可以理解的,不少个人开发者都开发出了实力强大的围棋AI。

对业界来说,2012年的图像识别神经网络AlexNet的基础意义更大。AlexNet三人开发团队包括导师辛顿,还有两个学生,其中一人就是ChatGPT的技术核心Ilya Sutskever,他也参加过AlphaGo的开发。AlexNet依靠深层卷积神经网络,在ImageNet图像识别大赛中,错误率一举降到15%,相比其它技术的30%有了巨大突破。这是真正让业界兴奋的进展:深度学习展示了它的神奇。

深度学习让业界一举从迷茫中找到了方向。计算机硬件速度不断提升,还有GPU并行加速,训练数据量也在迅猛增加。突破了瓶颈之后,深层神经网络的能力就一下“涌现”了。短期内,深度学习成果就席卷了几乎所有科学领域,人们的经验被构建、被训练,来到各种神经网络结构中。机器翻译质量突飞猛进,人脸识别能力惊人,绘画以假乱真。这些进展其实在AlphaGo出现之前就发生了,社会知道“深度学习很厉害”这个说法,但没想太远。

这是一次真正科学意义上的“涌现”。计算机之前是作为工具帮助各科学领域的研究,主导的还是领域专业知识。但是忽然一下,各学科发现,连研究范式都变了。

这次深度学习的“涌现”,有两层意思。一层是说,随着神经网络规模、训练机器速度、样本数量不断增加,到了一定规模以后,忽然一下就“量变到质变”,神经网络能力跃升“涌现”,把图像识别效果大幅提升。第二层是说,深度学习在图像识别领域表现极好,这个能力还迅速推广到了其它计算机领域,甚至改变了其它学科,能力的应用范围也涌现了。

有意思的是,人们对AlphaGo关注极大,是因为终极意味的“智能”引发了很大兴趣。许多人想象中,一个人形机器在思考着击败了人类棋手,人类的最后堡垒“智慧”被证明不如机器,工作将被机器取代,引发了很多哲学与社会思考。但AlphaGo代表的人工智能技术,与智能本质并无太大关系,是“人工”造出来的假象,它只是巧妙地模拟了一个复杂的计算任务。社会慢慢习惯了之后,人工智能的能力边界清楚了,2018年后关于机器智能的讨论迅速降温,似乎又要回到寒冬了,投资热度下降。

当然在业界来说,自从2016年人工智能爆火之后,并没有什么寒冬。开发者积极在各种领域应用深度学习,研究者探索新的神经网络架构、训练方法,不断有各种成果出来,领域非常活跃。只是外界认为“没那么神奇”,感觉平淡了。

按照明斯基式的数学理解,这次深度学习的突破,就是用极多的系数(几百万至上亿个),构建了规模很大的数学公式,去拟合逼近了围棋、图像识别等复杂问题的解空间。从能力最简单的“直线分割平面”发展成,用规模极大形状复杂的超空间曲面去分割空间。而构建方法,是统计拟合,通过海量样本对比统计误差,反向传播修改系数减小误差,多次学习后误差降到极小,数值模拟成功。样本可以是人工标注的,也可以是自动生成的,硬件基础是GPU加速并行计算(几千个计算核心)。

笔者与人文学者交流时,把统计模拟的数学意义解释清楚,对人工智能就“祛魅”,神奇的“智能”感觉消失了。而且这个统计模拟显然会有缺陷,没有坚实的逻辑基础。它的成功是统计性的,什么时候出现bug难以预期。

人工智能大模型神奇的“涌现”到底是什么? | 陈经

就如AlphaGo3:0胜人类第一高手柯洁,被认为彻底战胜了人类,回头看很可能是有重大缺陷的。研究者通过构造“盘龙眼”这样的罕见棋形,击中了围棋AI的弱点,让无比强大的AI犯简单错误。图为2023年2月,日本职业二段芝野龙之介执黑对围棋AI绝艺的对局,黑棋诱导白棋走出一块转圈连上的棋(内部包围了黑棋一块活棋)。由于AI在训练中极少出现这样的棋形,会对棋块的死活产生错觉,最后大块走死,业界认为所有围棋AI都会有这个bug。

这种例子在各领域到处都是。以深度神经网络为基础的模式识别,会有难以消除的缺陷,应用于自动驾驶等安全领域会有很大的麻烦。某种程度上,这也是“第三次人工智能寒冬”说法的技术根源,达不到预期,一些研究者感到迷茫。

三.第二次人工智能“涌现”:大模型

正当业界普遍以为工人智能短期不会再有巨大突破时,更大突破却来了!

2022年底ChatGPT、GPT4接连引爆关注,全球IT大公司紧急购买英伟达GPU开发大模型。这次人工智能的表现,在业界看来,是真正接近了“智能”的本意,虽然还有争议。外界因为2016年来过一次热潮,有过寄望过高的“教训”,反而不是很“狂热”。

人工智能的突破,往往是从一些看似简单的任务开始。这次的大模型,就是从一个“简单”的任务开始:预测下一个词说啥。“语言大模型”的基本操作,就是一个接一个地往外吐词,形式上就是这么简单。过去的聊天机器人、作诗机,人们也见识过,并没有太特殊,没想到在这个领域发生了巨大突破,可能会产生真正的“智能”。

只学习人类的语言,机器是否能学成真正的智能,这有争议,杨立昆就强烈否认。但这是“AI哲学”的范畴,可以先不管,看看机器学习海量的“语料”会发生什么。

GPT是Generative Pre-Trained Transformer,我们来看看具体的意思。Transformer就是一种神经网络结构,2017年发明后,在机器翻译这个任务中证明了能力,它并不复杂,只是数量特别多,用来存放几千亿个系数。Generative是生成式,GPT会生成对话文字等内容,近期爆火的图片、视频软件也都是生成式应用。Pre-Trained是“预训练”,一个理解就是把整个互联网那么大规模的语料文本,交给Transformer去学习,后来又增加了语音、视频材料,多模态。语料甚至不用人工标注(选择去除有害内容是另一回事),预训练就是让GPT预测文本语料中的下一个词,不准就反向传播调整系数。

这个任务听上去很简单,但是想想看,GPT会从中学到什么?这就不简单了。要注意,研究者将机器的存储与训练“算力”狠狠扩张,足以处理整个互联网这么多的语料。

一个传统观察是,学习语料,能让机器学到“语法”和“语义”。在NLP(自然语言理解)领域的机器翻译任务,人们就深有体会,研究者用人工代码去实现语法、对单词建立对应关联,是死路一条,翻得很丑陋。而机器对着训练文本自动学习,就能把一门语言的语法、单词间的语义关联建立起来,翻译得象模象样。它知道一些单词互相是有关系,经常一起出现,出现时有什么条件,这些关系都记在神经网络系数中。Transformer数据结构就是能对一句话中的单词,方便地建立关联。

即使机器翻译得很好了,人们也知道,机器并不理解这些话是什么意思。按数学理解,机器是把一段话用encoder编码了,然后再用decoder解码成另一种语言。它是一种编码、解码的算法,调试好让人们觉得翻译得不错。实际上,在翻译机器看来,它面对的只有一些“token”(记号),这些token互相有关联,实际是什么它不用知道。就象有确定答案的围棋一样(完全信息博弈),翻译的输出也是相对确定的,是较为“容易”的任务(人类总是这样,解决了就认为容易了)。

但是GPT预训练的任务不是翻译,而是预测下一个token。这比翻译得象样要难得多,想让接下来的文本序列合理(这样才会与人类语料大概率相符),它需要了解“事实”,甚至学会“推理”!这时,在人工智能领域,就“涌现”了真正让人震惊的科学新现象。

人工智能大模型神奇的“涌现”到底是什么? | 陈经

以中国大模型中能力排前的科大讯飞“星火大模型”为例,它面对“从西安开车30分钟为什么没到北京”的问题。在语料中不会有直接的答案,就需要对问题进行分解。理解“开车没到”相关语料,就会引入“时间”与“距离”,然后再根据距离,去关联西安与北京,还要引入“速度”,最后组合出的答案。这个过程,直觉上就不简单,从形式上真的象是在推理。

在ChatGPT与GPT4的应用中,有极多这样的案例,让人们相信机器是真的有强大的推理能力了。OpenAI的人说,有时不知道GPT4是怎么推出来,里面的机制真的很神奇。

当然GPT也有很多逻辑缺陷,人们诱导出机器离谱的回答不难。但是从科学发现的角度看,新现象可以重复,即使应用需要条件、有缺陷,也是很不错的实质突破。在以前,研究者认为聊天机器人只是形式上的语言模仿者(现在也有很多人这样看GPT),从未发现机器有如此强大的推理能力。看多了GPT的对话,明显能感觉到,机器的数据结构中,真的蕴含了推理能力,不可能靠模仿出来。

对“新现象”兴奋,而非更关注离谱的缺陷,正是研究者区别于普通人的特质。外界会要求补掉严重缺陷,否则就没有通过图灵测试,应用时不敢相信。但研究者会对机器表现出来的新能力更关注,知道这里有“新世界”。物理学家对于可能的“新物理”极为关注,有点蛛丝马迹都扑上去一堆分析,往往是失望。人工智能研究者当然会关注“机器推理能力是如何产生的”这类问题,所以大公司都疯狂了,都扑上去了。研究大模型需要的算力、存储、资金等硬条件太高,比深度学习要高多了,否则研究者会更多。但中美两国的大模型数量已经非常多了,这种“大发现在前方”的集体兴奋是从未有过的。

短短10年内,人工智能领域就出现了两次科学原理级别的“涌现”,深度学习一次,大语言模型一次。也许外界不清楚意义,但业内人士真的产生了前所未有的热情。

大模型是如何学会推理的?这也是可以描述的。一个类似的例子,是围棋AI学会“征子”。AI的训练是不断进步的,一套“权重”对应一个版本。象围棋这种有胜负的游戏,可以让AI从什么也不会开始,让各版本“自对弈”对战,并根据对战结果改进权重,表现好的权重成为胜利者继续发展。这个训练可以是分布式的,LeelaZero就是由众多爱好者贡献机器自对弈更新权重的。

人工智能大模型神奇的“涌现”到底是什么? | 陈经

在训练中,爱好者们明显发现,常规的围棋战术,如打吃、提子、逃跑,AI各版本能很快学会,但是征子却很难学会。因为它涉及相隔很远的棋子之间的斜向关系,能不能扭来扭去吃掉,对AI很难。但时间长了,就会有某个幸运的权重版本,学会了判断征子,而且会利用这个能力,对其它不会征子的版本大杀四方。学会征子,围棋AI的神经网络结构要足够大,如20层可以10层不够,要训练很多盘自对弈。

GPT的预训练实现推理能力,也是这样的。首先网络结构的规模要大,OpenAI从GPT2到GPT3、GPT4不断扩大规模,几千亿个系数,规模够了。然后训练语料要多,训练时间要长。剩下的,就是看GPT的能力怎么逐渐冒出来,和围棋AI的自对弈训练一样,简单的能力先学会,复杂的后学会。

让人震惊的科学发现是:GPT3非常成功,它在预训练中学会了很复杂的推理!这就如同AlexNet对于深度学习的意义,GPT3让业界认识到了大语言模型的极大潜力。

可以这样理解,有一些GPT预测文本的任务,如果不会推理,肯定是做不好的。做不好,“损失”数值会比较大。GPT反复训练,不断用各种办法修改权重,试图降低“损失”,最终在某个时刻,把“损失”降下去了。而这就等价于,GPT具备了推理能力,输出像模像样了。

其实人类学习推理也是这样,你会了,考试就能过,不然就过不了,蒙不过去。至于人类怎么学会的,每个人有自己的方法,考试和应用才是评判标准。哲学上,如果说机器不是在推理,是在计算模仿,不是智能,这说不清。公平的评判就是,机器完成了需要推理的任务,那就是有了堆理能力,并且掌握了很多推理需要的“事实”。

OpenAI没有按常规发论文公布GPT3、GPT4的技术细节,有些训练技术人们只能猜测。但业界人士总会有互相交流,员工也会被挖走,技术不可能一直是独家的。因此GPT训练技术就是在扩散,一些认知逐渐成为业界共识。GPT的成功在于搞出了“涌现”,这就是业界的共识。

这次GPT的涌现,还特别有哲学意味,比深度学习那次的涌现,有更多可以说的。

1. 类似于深度学习,网络规模、语料、机器速度、训练时间不断增长,最终新的能力就涌现了,量变引发质变。这是常规的预期,人们之前只是不确定,基于Transformer的GPT能否成功,不想极大投入。这一关已经过了,无数公司愿意砸大钱了。

2. GPT的预训练是在试图降低“损失”,这个损失函数值是统一的。但不同于AlexNet的单一任务,GPT实际是有很多任务的文本输出表现要提升。它可能某些场景对话难度低,表现得不错,另一些场景要考验复杂推理,甚至数学能力,就表现糟糕。GPT的涌现,并不是一次性的,而是各种类型的任务能力,从易到难,逐渐提升。也就是说,GPT的涌现,现象本身就很有多样性,有很多值得探索的细节。例如某类任务的能力忽然涌现了,即使损失函数看上去差别不大,这对其它单任务训练来说是新鲜的。再例如人们发现GPT的逻辑能力让人印象深刻,但是涉及数学就要差不少。

3. GPT的涌现,还没有达到终点。当人们发现“量变引发质变”的好事发生时,已经很激动了,也许只是几个小任务的成功,就能让人们确信这一点。但继续训练,就会发现好事越来越多,人类文本蕴含的任务种类实际是无穷无尽的,难度会越来越大,考验非常多种能力。GPT框架到底有多强大,人们还说不清,这种未知感更让人兴奋。人们就象在山洞里寻宝,知道有宝贝,是什么类型的不知道,这反而会招来更多寻宝者。深度学习的涌现,就容易判断,能力有了,但再训练也不会更好了,整个过程都熟悉了。

4. GPT的规模,还应该继续扩大,从千亿参数扩展到万亿参数,乃至更高。一般的深度学习任务,网络规模够了就行,再扩大也意义不大,反而可能“过拟合”。但是GPT要记忆人类社会的“事实”信息,几千亿个系数规模显然不够。虽然它可以进行“信息压缩”,但这肯定会损失信息。另一个直觉是,网络规模扩大后,GPT的“潜能”也会增加,在复杂的启发式知识海洋中游荡,发现深层的相关性。

看了以上的GPT涌现特性就能明白,研究者的兴奋是超过深度学习那一波的。一些激进的学者认为,GPT架构就蕴含了真正的智能,真的开始思考人类被机器毁灭的事。一个有些奇怪的事是,OpenAI花了相当多的精力去进行AI安全的研究,甚至导致公司内部“政变”式动荡。GPT的涌现,确实很有人类的智慧特性,多样、复杂、难以预测、潜力无限。因此,这肯定是人工智能乃至整个科学研究领域,最接近“通用人工智能”(AGI)的一次。也能明白,为何学者们在认真讨论GPT相关的“AI哲学”问题。

外界对于GPT的涌现不够了解,容易低估它的科学发现意义。很多人就是关注各类GPT的聊天表现,ChatGPT和GPT4强大,国产的有差距。有些人对AI聊天中表现的强大推理能力赞叹,或者对AI聊天象模象样地胡编乱造撒谎感到震惊。外界容易有一种倾向,似乎对GPT的研究,主要就是让它聊得更好,更没有破绽。

实际上,对于GPT的研究核心,应该是探索更多的“涌现”细节。微软、谷歌等大公司,在试更大的模型,直接目的,并非是想让机器人聊得更好,而是探索令人着迷的“涌现”。也许通过不断催生GPT的涌现,最终通向了AGI,也许如杨立昆预测的,这条路不通。但无论如何,现在不是关注缺陷、完善产品的时候。也许等GPT的能力边界探索清楚了,开发者就可以回过头来,用能力去开发、想办法避免缺陷。

值得注意的是,2022年初GPT3已经出现了很成功的“涌现”,甚至GPT4在2022年8月就已经预训练出来了,但只有少数专业人士惊叹,没有爆火。直到ChatGPT(GPT3.5)通过RLHF(人工反馈的强化学习),将输出语言调试得让人类感觉舒服,才在2022年底引爆了全球关注。

这说明人类很容易受“表象”的影响,即使是专业研究者也未能免俗。深度学习是真的“涌现”突破,但是在新闻界远不如AlphaGo与人类对战轰动。GPT3、GPT4的预训练是让“涌现”不断出现的研发框架,潜力无限,但是RLHF的效果外界更关注。

对于国产大模型也是如此,上百家在开发,应该关注GPT的“涌现”。即使一些国产大模型因为资金和硬件条件有限,规模不是很大,对模型特性的探索也是有益的,能够发现GPT涌现的特性,也许能加速涌现的发生。不用太在意国产大模型的缺陷,这无法避免,原因可能有多种,语料准备不够、训练时间不够、算法细节问题。搭起了大模型研发框架,探索“涌现”的细节,总会有收获。

对于大模型的应用生态,如果对GPT的“涌现”特性有了解,也许会有不同的感觉。不应该把大模型当成聊天机器人,这限制了想象力。GPT涌现出的推理、数学、信息压缩、多模态、内容生成等多种能力,这打开了全新的研发架构。就象深度学习,它既是探索框架,也是应用架构。

美国IT大公司正试图用GPT改造整个软件体系。大公司会象军备竞赛一样,继续扩大GPT的规模。更为普遍的行为,是开发工具链,将GPT应用做起来,让开发者能够加入进来,在各行各业应用GPT涌现出的能力。而后者才是中国更应该学习,也是有优势的领域。

对于国产大模型的基础能力,笔者并不担心。例如科大讯飞的星火大模型3.0,评测认为接近ChatGPT的水平,准备2024年5月推出接近GPT4的星火AI 4.0。大模型评测是一个重要研究领域,标准还不是很统一,但显然国产大模型能力在快速进步,与美国的差距说多了也就是2年。

对于某个问题,如果国产大模型的回答不如ChatGPT、GPT4质量好,舆论就会很关注。其实更应该关注“涌现”,如果中国公司的研发架构,能让各类涌现不断发生的,那么本质上中美就在同一个赛道竞争。也许美国大模型已经实现了4级涌现,中国还只能3级,美国公司还消除了更多的bug,这会让差距显得很大。随着中国公司对“涌现”的研究越来越深入,差距都会补上。

真正影响大的,是大模型的应用生态。没有生态,公司的大模型研发最终会难以为继,即使OpenAI也觉得大模型开发、运维太花钱了。如果中国公司做起大模型应用生态了,就能迭代开发,针对性地改进行业应用中的缺陷,这是中国公司的拿手好戏。有些应用能成功,即使基础技术不那么强,但抓住了行业痛点,应用推广了,生态做起来了,反过来又带动基础技术提升。

安徽的通用人工智能发展规划对此理解较深,2025年要“充裕智能算力建成、高质量数据应开尽开、通用大模型和行业大模型全国领先、场景应用走在国内前列、大批通用人工智能企业在皖集聚、一流产业生态形成”。

中国的产业发展历史,本身就是一个不断“涌现”的过程。2000年以后,中国的众多产业奇迹一般地不断崛起。笔者从2013年起就一直鼓吹的安徽省会合肥,是全球城市增长最快的,2022年GDP相比2000年增长了37倍,本来产业没什么特色,却涌现出了多个千亿产业集群,如新型显示、集成电路、新能源汽车。

即使已经鼓吹多年,仍然会不断被合肥与安徽的发展震惊。如安徽2023年汽车产量249.1万辆,成为全国第二(广东遥遥领先)。这次通用人工智能大赛在芜湖举办,当地的奇瑞2023年生产了188万辆汽车,自主品牌与出口都爆发增长了,2024年要冲击400万辆。合肥2022年新能源汽车产量25.5辆,同比增133%,2023年74.6万辆,再增140%。合肥布局很好,比亚迪、大众、蔚来都来了,目标是2025年新能源汽车产量200万辆、2027年340万辆!

用GPT来类比,中国的发展机制在改革之后,换成了Transformer(这个词就有变革的意思),就发生了不可思议的产业“涌现”。

了解了GPT的“涌现”,再看美国政府打压中国人工智能,连4090显卡 GPU都不让卖了,就能明白,美国政府这是赌了,认为通用人工智能会有大突破。美国商务部长雷蒙多赤裸裸地说,要拖慢中国人工智能的发展。

但是中国已经有准备了,华为、科大讯飞等企业成为人工智能行业与美国斗争的排头兵。科大讯飞因为被美国放入实体名单,花了小半年的努力去适配国产GPU,这在全国是领先的。华为云建设了3大AI算力中心,其中一个就是在安徽芜湖。

产业发展是有惯性的,已经实现产业“涌现”的,在新兴产业政策的规划、实施上就有优势。通用人工智能的发展,笔者同样祝福、看好安徽。

■ 扩展阅读

中美汽车竞争?不存在的 | 陈经

清华光电融合芯片算力是GPU的3000多倍?媒体搞出的大新闻 | 陈经

没人能“杀死”1.5万亿美元的英伟达 | 陈经

学习中国建立大市场内生增长模式,我们需要正视印度经济崛起 | 陈经

■ 作者

陈经

获中国科学技术大学计算机科学学士,香港科技大学计算机科学硕士,科技与战略风云学会会员,《中国的官办经济》作者。

继续阅读