人工智能大模型神奇的“湧現”到底是什麼？

2023年12月24日，安徽主辦的全國通用人工智能創新大賽總決賽在蕪湖舉辦。這是中國計算機學會科創大賽中，專門關注通用人工智能的，與近來大模型的突破有關。大賽吸引了全國300多個項目團隊，80支隊伍進入複賽，省外團隊占比超80%，20支隊伍晉級總決賽。

合肥中聚源智能一套關于心理健康的軟硬體産品，用人工智能普适分析，對人的心理健康進行全周期的實時監護，獲得比賽一等獎。除現金獎勵，獲獎團隊在安徽落地還會得到最高3000萬元的綜合支援，合肥、蕪湖、宿州市都有項目簽約。

人工智能大模型不僅是通過對話讓人們感到驚奇，已經開始有許多項目落地了。這一切的關鍵，是人工智能大模型出現了神奇的“湧現”，本文對這個現象進行解釋。

一．人工智能再度爆火

ChatGPT引發的大模型熱度不減，中國短時間内推出了超過200多個。谷歌12月6日推出的大模型Gemini爆火，視訊示範讓人印象深刻，但引發造假争議。

AIGC（人工智能生成内容）進展層出不窮。深圳詩雲科技開發的HeyGen AI生成的短視訊中，郭德綱說起了流利的英語，泰勒斯威芙特說的中文音色、口型都能對上，引發哄動。Runaway、Pika等視訊圖像生成軟體效果很好，在中美科技圈爆火。Midjourney的圖像生成已經在市場上獲得了巨大成功，沒有投資者，僅40個員工就實作了2億美元年營收。遊戲公司的開發流程已經改變了，原畫師效率大增。AI相關的創業風投，是目前最火的，沒有之一。

2023年的人工智能，火得有些出人預料。本來人們以為這會是一次“人工智能寒冬”。

Gartner新興技術發展曲線

2016年初，Deepmind的AlphaGo下圍棋戰勝人類，引發了多年來最大一波人工智能熱潮，人們熱情一下起來了，逢會必談。但是之後熱度逐漸下降，就如許多業界人士揭示和預期的，深度學習有能力也有缺陷，不宜寄望太高。就如自動駕駛成為研發大坑，許多公司投入巨大卻難于突破。人工智能創業公司估值下降，風投在找突破口。這一切看上去很“正常”，符合技術發展規律，爆火時産生的過高預期破滅，熱情下降，業界人士繼續積累，從低谷恢複，在遠期将技術推廣應用。

即使是業界人士也沒想到，2023年人工智能大模型、AIGC能火成這樣。360創始人周鴻祎11月30日分享了去矽谷的見聞，稱“投資者對于沒有AI概念、沒有AI功能、沒有AI成分的公司已不會考慮”，“美國在賭人工智能這件事，整個投資體系、創業體系、大公司體系、傳統公司體系都在全面擁抱AI。”

從産業和技術影響來看，2023年的人工智能熱潮力度，已經超過了2016年。這是有原因的，很多研究者相信，人類社會發生了幾十年未見的，科學原理級的重大突破，不能憑經驗用一般的技術發展曲線去評估。

這個大突破，就是人工智能大模型的能力“湧現”（emergence）。本文将從技術角度解釋，什麼是大模型的“湧現”，它的意義有多大。

二．深度學習是一次科學突破“湧現”

人類科學突破，最經典、最為人熟知的領域是實體。從伽利略實驗、牛頓三定律開始，到20世紀上半葉相對論、量子力學成為高峰，這是科學領域最深入人心的發展曆程。新的實體現象、實體定律不斷被發現，多次引發科學突破，有的還帶來科技與産業革命。

從20世紀下半葉開始，重大的實體發現明顯減少，似乎能發現的宇宙基本規律就這些了。有些人認為，人類社會“科技停滞”了，重大科學發現、科技突破越來越少，甚至能力倒退，如航天登月。但是，如果從“湧現”的角度去分析，就會有不同的感受。

實體學曾經有很多“湧現”，技術進步讓科學家們能發明創造全新的實驗工具，發現讓人興奮的新現象、觀測驗證新理論。在量子力學初創的年代，幾年内就有非常多的大突破。科學發現往往不需要太深入的認識，即使隻有模糊不清的理論，隻要配上合适的工具與檢測儀器，就能帶來大突破。20世紀之前，人們意識到物質是由原子構成的，用光譜分析等手段就發現了很多元素，而原子的微觀理論仍然是不太清楚的。

實體學新現象很少了，人類科技也不會停滞。在生物、IT等領域，不斷有令人興奮的新發現，推動科技與産業進步。科學規律與現象不應該有等級高低的分别，隻要能給人們帶來認識世界、改造世界的新能力，都是原理級的大突破。人工智能是建構在實體知識體系之上的，但它的發現意義并不比實體基本規律要小。

人工智能大模型表現出來的能力湧現，可以類比于人類發現了電力，出現了讓人激動的全新現象，是潛力巨大的基礎科學發現。雖然真正了解的人還不多，但是業界人士正以幾十年沒見過的科學激情，探索新世界。

在人工智能超過60年的發展史上，産生過不少人們感興趣的新現象。但往往是争議多、價值沒有想象的大，明顯受限于發展階段，研發人工智能依賴的“工具”（也就是計算機硬體）能力不夠。對人工智能能力的批評、對重大缺陷的揭示，一直伴随着人工智能的發展，到大模型時代仍然是如此，如機器對話中難以消除的“幻覺”。

在上世紀50、60年代，感覺機等簡單結構、人工編寫算法程式下棋，已經讓學者們意識到，人工智能（Artificial Intelligence) 是一個新的科學領域了。但由于神經網絡結構過于簡單、人工代碼精心編寫AI程式困難、算法複雜度指數上升，人工智能早期遭遇了低谷。日本80年代選擇人工智能作為“第五代計算機”的突破方向，最後徹底失敗，技術資料一錢不值。

感覺機模型與“異或問題”

著名的“異或問題”是，明斯基等研究者指出，單層的感覺機通過調整神經網絡系數，可以對兩個輸入值的與、或、非成功輸出；但不管如何調整系數，也無法輸出異或的結果。理論上就不可能，其原理如上圖右邊的0和1在四個角交叉放置，無法劃一條直線把0和1各放一邊。推廣來說，如果兩種模式通過一個超平面“線性可分”，感覺機就能訓練收斂，但實際應用中絕大部分模式識别問題是非線性的。

“線性可分”的問題能用神經網絡訓練成功，從科學發現角度，是個新現象。上萬億個系數的大模型，其基本特性在最初的感覺機中都可以找到，調整系數、加減乘除簡單運算、數值結果解釋輸出。但這隻是馬後炮，由于當時的認識局限性，學界普遍把神經網絡看成意思不大的“玩具”，對應1974-1980年的第一次人工智能寒冬。科學界這類例子很多，研究成果有點意思，但後面沒進展就會逐漸冷下去了，很少能再熱起來。

80年代，楊立昆、辛頓（加上本吉奧，三人是2018年圖靈獎得主）等研究者引入多層神經網絡和意義極大的“反向傳播算法”（Back Propagation，簡稱BP），成功實作了精度足夠的手寫數字識别等成果，有了信封郵政編碼識别、支票識别等實際應用，工業應用越來越多。由于計算機性能上升，人工代碼精心編寫的下棋程式能力讓人印象深刻，國際象棋戰勝了人類世界冠軍。

這段時間的人工智能有發展，也算小有成就，但是在當時的IT大潮中，顯得不太突出。這對應1987-2016年的第二次人工智能寒冬，從投資角度是可以這樣了解。人們熱衷于軟體開發、通信、網際網路、手機APP等投資方向，人工智能不算熱門。

IBM的深藍開發代價很大，戰勝卡斯帕羅夫之後封存，後續發展和技術影響不大。人們認識到，靠人工代碼編寫人工智能算法，會被博弈問題的指數複雜度卡住，編寫的專家系統邏輯能力有限，難以應對複雜問題。這種“符号主義”的發展路徑，是當時人工智能的主流，頂尖成果代表業界，但是後面方向迷茫。

BP神經網絡結構，一個隐藏層

後來大放光彩的深度學習、大模型，在這個階段其基本結構和訓練架構已經有了。多層神經網絡前後連接配接，對應人工智能的“連接配接主義”。前向傳導計算出最終節點的結果，與樣本對比産生“誤差”，一層層反向傳播回去，用“梯度下降”等方法反複修改系數，讓誤差降低，優化整體的“損失函數”。這些看上去并不複雜的基本技術，通過反複訓練将損失函數降到極低，就能産生驚人的模式識别效果，将手寫數字等簡單模式識别出來。但是這個階段的多層神經網絡，能力還是有限，稍複雜的圖像模式識别問題就表現不佳，限制了技術應用。

2016年人工智能熱潮忽然興起，因為AlphaGo在極為困難的圍棋問題上（符号主義無能為力）戰勝了人類頂尖棋手，大大出乎預料，多少有些戲劇性。其實對業界人士來說，技術上算是水到渠成，是各種技術因素的組合成果，有傳統的MCTS（蒙特卡洛樹搜尋）博弈搜尋算法，也有深度神經網絡、強化學習、對抗生成網絡（GAN）等新技術運用。結果很好，但技術并不算太有突破性，是可以了解的，不少個人開發者都開發出了實力強大的圍棋AI。

對業界來說，2012年的圖像識别神經網絡AlexNet的基礎意義更大。AlexNet三人開發團隊包括導師辛頓，還有兩個學生，其中一人就是ChatGPT的技術核心Ilya Sutskever，他也參加過AlphaGo的開發。AlexNet依靠深層卷積神經網絡，在ImageNet圖像識别大賽中，錯誤率一舉降到15%，相比其它技術的30%有了巨大突破。這是真正讓業界興奮的進展：深度學習展示了它的神奇。

深度學習讓業界一舉從迷茫中找到了方向。計算機硬體速度不斷提升，還有GPU并行加速，訓練資料量也在迅猛增加。突破了瓶頸之後，深層神經網絡的能力就一下“湧現”了。短期内，深度學習成果就席卷了幾乎所有科學領域，人們的經驗被建構、被訓練，來到各種神經網絡結構中。機器翻譯品質突飛猛進，人臉識别能力驚人，繪畫以假亂真。這些進展其實在AlphaGo出現之前就發生了，社會知道“深度學習很厲害”這個說法，但沒想太遠。

這是一次真正科學意義上的“湧現”。計算機之前是作為工具幫助各科學領域的研究，主導的還是領域專業知識。但是忽然一下，各學科發現，連研究範式都變了。

這次深度學習的“湧現”，有兩層意思。一層是說，随着神經網絡規模、訓練機器速度、樣本數量不斷增加，到了一定規模以後，忽然一下就“量變到質變”，神經網絡能力躍升“湧現”，把圖像識别效果大幅提升。第二層是說，深度學習在圖像識别領域表現極好，這個能力還迅速推廣到了其它計算機領域，甚至改變了其它學科，能力的應用範圍也湧現了。

有意思的是，人們對AlphaGo關注極大，是因為終極意味的“智能”引發了很大興趣。許多人想象中，一個人形機器在思考着擊敗了人類棋手，人類的最後堡壘“智慧”被證明不如機器，工作将被機器取代，引發了很多哲學與社會思考。但AlphaGo代表的人工智能技術，與智能本質并無太大關系，是“人工”造出來的假象，它隻是巧妙地模拟了一個複雜的計算任務。社會慢慢習慣了之後，人工智能的能力邊界清楚了，2018年後關于機器智能的讨論迅速降溫，似乎又要回到寒冬了，投資熱度下降。

當然在業界來說，自從2016年人工智能爆火之後，并沒有什麼寒冬。開發者積極在各種領域應用深度學習，研究者探索新的神經網絡架構、訓練方法，不斷有各種成果出來，領域非常活躍。隻是外界認為“沒那麼神奇”，感覺平淡了。

按照明斯基式的數學了解，這次深度學習的突破，就是用極多的系數（幾百萬至上億個），建構了規模很大的數學公式，去拟合逼近了圍棋、圖像識别等複雜問題的解空間。從能力最簡單的“直線分割平面”發展成，用規模極大形狀複雜的超空間曲面去分割空間。而建構方法，是統計拟合，通過海量樣本對比統計誤差，反向傳播修改系數減小誤差，多次學習後誤差降到極小，數值模拟成功。樣本可以是人工标注的，也可以是自動生成的，硬體基礎是GPU加速并行計算（幾千個計算核心）。

筆者與人文學者交流時，把統計模拟的數學意義解釋清楚，對人工智能就“祛魅”，神奇的“智能”感覺消失了。而且這個統計模拟顯然會有缺陷，沒有堅實的邏輯基礎。它的成功是統計性的，什麼時候出現bug難以預期。

就如AlphaGo3：0勝人類第一高手柯潔，被認為徹底戰勝了人類，回頭看很可能是有重大缺陷的。研究者通過構造“盤龍眼”這樣的罕見棋形，擊中了圍棋AI的弱點，讓無比強大的AI犯簡單錯誤。圖為2023年2月，日本職業二段芝野龍之介執黑對圍棋AI絕藝的對局，黑棋誘導白棋走出一塊轉圈連上的棋（内部包圍了黑棋一塊活棋）。由于AI在訓練中極少出現這樣的棋形，會對棋塊的死活産生錯覺，最後大塊走死，業界認為所有圍棋AI都會有這個bug。

這種例子在各領域到處都是。以深度神經網絡為基礎的模式識别，會有難以消除的缺陷，應用于自動駕駛等安全領域會有很大的麻煩。某種程度上，這也是“第三次人工智能寒冬”說法的技術根源，達不到預期，一些研究者感到迷茫。

三．第二次人工智能“湧現”：大模型

正當業界普遍以為勞工智能短期不會再有巨大突破時，更大突破卻來了！

2022年底ChatGPT、GPT4接連引爆關注，全球IT大公司緊急購買英偉達GPU開發大模型。這次人工智能的表現，在業界看來，是真正接近了“智能”的本意，雖然還有争議。外界因為2016年來過一次熱潮，有過寄望過高的“教訓”，反而不是很“狂熱”。

人工智能的突破，往往是從一些看似簡單的任務開始。這次的大模型，就是從一個“簡單”的任務開始：預測下一個詞說啥。“語言大模型”的基本操作，就是一個接一個地往外吐詞，形式上就是這麼簡單。過去的聊天機器人、作詩機，人們也見識過，并沒有太特殊，沒想到在這個領域發生了巨大突破，可能會産生真正的“智能”。

隻學習人類的語言，機器是否能學成真正的智能，這有争議，楊立昆就強烈否認。但這是“AI哲學”的範疇，可以先不管，看看機器學習海量的“語料”會發生什麼。

GPT是Generative Pre-Trained Transformer，我們來看看具體的意思。Transformer就是一種神經網絡結構，2017年發明後，在機器翻譯這個任務中證明了能力，它并不複雜，隻是數量特别多，用來存放幾千億個系數。Generative是生成式，GPT會生成對話文字等内容，近期爆火的圖檔、視訊軟體也都是生成式應用。Pre-Trained是“預訓練”，一個了解就是把整個網際網路那麼大規模的語料文本，交給Transformer去學習，後來又增加了語音、視訊材料，多模态。語料甚至不用人工标注（選擇去除有害内容是另一回事），預訓練就是讓GPT預測文本語料中的下一個詞，不準就反向傳播調整系數。

這個任務聽上去很簡單，但是想想看，GPT會從中學到什麼？這就不簡單了。要注意，研究者将機器的存儲與訓練“算力”狠狠擴張，足以處理整個網際網路這麼多的語料。

一個傳統觀察是，學習語料，能讓機器學到“文法”和“語義”。在NLP（自然語言了解）領域的機器翻譯任務，人們就深有體會，研究者用人工代碼去實作文法、對單詞建立對應關聯，是死路一條，翻得很醜陋。而機器對着訓練文本自動學習，就能把一門語言的文法、單詞間的語義關聯建立起來，翻譯得象模象樣。它知道一些單詞互相是有關系，經常一起出現，出現時有什麼條件，這些關系都記在神經網絡系數中。Transformer資料結構就是能對一句話中的單詞，友善地建立關聯。

即使機器翻譯得很好了，人們也知道，機器并不了解這些話是什麼意思。按數學了解，機器是把一段話用encoder編碼了，然後再用decoder解碼成另一種語言。它是一種編碼、解碼的算法，調試好讓人們覺得翻譯得不錯。實際上，在翻譯機器看來，它面對的隻有一些“token”（記号），這些token互相有關聯，實際是什麼它不用知道。就象有确定答案的圍棋一樣（完全資訊博弈），翻譯的輸出也是相對确定的，是較為“容易”的任務（人類總是這樣，解決了就認為容易了）。

但是GPT預訓練的任務不是翻譯，而是預測下一個token。這比翻譯得象樣要難得多，想讓接下來的文本序列合理（這樣才會與人類語料大機率相符），它需要了解“事實”，甚至學會“推理”！這時，在人工智能領域，就“湧現”了真正讓人震驚的科學新現象。

以中國大模型中能力排前的科大訊飛“星火大模型”為例，它面對“從西安開車30分鐘為什麼沒到北京”的問題。在語料中不會有直接的答案，就需要對問題進行分解。了解“開車沒到”相關語料，就會引入“時間”與“距離”，然後再根據距離，去關聯西安與北京，還要引入“速度”，最後組合出的答案。這個過程，直覺上就不簡單，從形式上真的象是在推理。

在ChatGPT與GPT4的應用中，有極多這樣的案例，讓人們相信機器是真的有強大的推理能力了。OpenAI的人說，有時不知道GPT4是怎麼推出來，裡面的機制真的很神奇。

當然GPT也有很多邏輯缺陷，人們誘導出機器離譜的回答不難。但是從科學發現的角度看，新現象可以重複，即使應用需要條件、有缺陷，也是很不錯的實質突破。在以前，研究者認為聊天機器人隻是形式上的語言模仿者（現在也有很多人這樣看GPT），從未發現機器有如此強大的推理能力。看多了GPT的對話，明顯能感覺到，機器的資料結構中，真的蘊含了推理能力，不可能靠模仿出來。

對“新現象”興奮，而非更關注離譜的缺陷，正是研究者差別于普通人的特質。外界會要求補掉嚴重缺陷，否則就沒有通過圖靈測試，應用時不敢相信。但研究者會對機器表現出來的新能力更關注，知道這裡有“新世界”。實體學家對于可能的“新實體”極為關注，有點蛛絲馬迹都撲上去一堆分析，往往是失望。人工智能研究者當然會關注“機器推理能力是如何産生的”這類問題，是以大公司都瘋狂了，都撲上去了。研究大模型需要的算力、存儲、資金等硬條件太高，比深度學習要高多了，否則研究者會更多。但中美兩國的大模型數量已經非常多了，這種“大發現在前方”的集體興奮是從未有過的。

短短10年内，人工智能領域就出現了兩次科學原理級别的“湧現”，深度學習一次，大語言模型一次。也許外界不清楚意義，但業内人士真的産生了前所未有的熱情。

大模型是如何學會推理的？這也是可以描述的。一個類似的例子，是圍棋AI學會“征子”。AI的訓練是不斷進步的，一套“權重”對應一個版本。象圍棋這種有勝負的遊戲，可以讓AI從什麼也不會開始，讓各版本“自對弈”對戰，并根據對戰結果改進權重，表現好的權重成為勝利者繼續發展。這個訓練可以是分布式的，LeelaZero就是由衆多愛好者貢獻機器自對弈更新權重的。

在訓練中，愛好者們明顯發現，正常的圍棋戰術，如打吃、提子、逃跑，AI各版本能很快學會，但是征子卻很難學會。因為它涉及相隔很遠的棋子之間的斜向關系，能不能扭來扭去吃掉，對AI很難。但時間長了，就會有某個幸運的權重版本，學會了判斷征子，而且會利用這個能力，對其它不會征子的版本大殺四方。學會征子，圍棋AI的神經網絡結構要足夠大，如20層可以10層不夠，要訓練很多盤自對弈。

GPT的預訓練實作推理能力，也是這樣的。首先網絡結構的規模要大，OpenAI從GPT2到GPT3、GPT4不斷擴大規模，幾千億個系數，規模夠了。然後訓練語料要多，訓練時間要長。剩下的，就是看GPT的能力怎麼逐漸冒出來，和圍棋AI的自對弈訓練一樣，簡單的能力先學會，複雜的後學會。

讓人震驚的科學發現是：GPT3非常成功，它在預訓練中學會了很複雜的推理！這就如同AlexNet對于深度學習的意義，GPT3讓業界認識到了大語言模型的極大潛力。

可以這樣了解，有一些GPT預測文本的任務，如果不會推理，肯定是做不好的。做不好，“損失”數值會比較大。GPT反複訓練，不斷用各種辦法修改權重，試圖降低“損失”，最終在某個時刻，把“損失”降下去了。而這就等價于，GPT具備了推理能力，輸出像模像樣了。

其實人類學習推理也是這樣，你會了，考試就能過，不然就過不了，蒙不過去。至于人類怎麼學會的，每個人有自己的方法，考試和應用才是評判标準。哲學上，如果說機器不是在推理，是在計算模仿，不是智能，這說不清。公平的評判就是，機器完成了需要推理的任務，那就是有了堆理能力，并且掌握了很多推理需要的“事實”。

OpenAI沒有按正常發論文公布GPT3、GPT4的技術細節，有些訓練技術人們隻能猜測。但業界人士總會有互相交流，員工也會被挖走，技術不可能一直是獨家的。是以GPT訓練技術就是在擴散，一些認知逐漸成為業界共識。GPT的成功在于搞出了“湧現”，這就是業界的共識。

這次GPT的湧現，還特别有哲學意味，比深度學習那次的湧現，有更多可以說的。

1. 類似于深度學習，網絡規模、語料、機器速度、訓練時間不斷增長，最終新的能力就湧現了，量變引發質變。這是正常的預期，人們之前隻是不确定，基于Transformer的GPT能否成功，不想極大投入。這一關已經過了，無數公司願意砸大錢了。

2. GPT的預訓練是在試圖降低“損失”，這個損失函數值是統一的。但不同于AlexNet的單一任務，GPT實際是有很多任務的文本輸出表現要提升。它可能某些場景對話難度低，表現得不錯，另一些場景要考驗複雜推理，甚至數學能力，就表現糟糕。GPT的湧現，并不是一次性的，而是各種類型的任務能力，從易到難，逐漸提升。也就是說，GPT的湧現，現象本身就很有多樣性，有很多值得探索的細節。例如某類任務的能力忽然湧現了，即使損失函數看上去差别不大，這對其它單任務訓練來說是新鮮的。再例如人們發現GPT的邏輯能力讓人印象深刻，但是涉及數學就要差不少。

3. GPT的湧現，還沒有達到終點。當人們發現“量變引發質變”的好事發生時，已經很激動了，也許隻是幾個小任務的成功，就能讓人們确信這一點。但繼續訓練，就會發現好事越來越多，人類文本蘊含的任務種類實際是無窮無盡的，難度會越來越大，考驗非常多種能力。GPT架構到底有多強大，人們還說不清，這種未知感更讓人興奮。人們就象在山洞裡尋寶，知道有寶貝，是什麼類型的不知道，這反而會招來更多尋寶者。深度學習的湧現，就容易判斷，能力有了，但再訓練也不會更好了，整個過程都熟悉了。

4. GPT的規模，還應該繼續擴大，從千億參數擴充到萬億參數，乃至更高。一般的深度學習任務，網絡規模夠了就行，再擴大也意義不大，反而可能“過拟合”。但是GPT要記憶人類社會的“事實”資訊，幾千億個系數規模顯然不夠。雖然它可以進行“資訊壓縮”，但這肯定會損失資訊。另一個直覺是，網絡規模擴大後，GPT的“潛能”也會增加，在複雜的啟發式知識海洋中遊蕩，發現深層的相關性。

看了以上的GPT湧現特性就能明白，研究者的興奮是超過深度學習那一波的。一些激進的學者認為，GPT架構就蘊含了真正的智能，真的開始思考人類被機器毀滅的事。一個有些奇怪的事是，OpenAI花了相當多的精力去進行AI安全的研究，甚至導緻公司内部“政變”式動蕩。GPT的湧現，确實很有人類的智慧特性，多樣、複雜、難以預測、潛力無限。是以，這肯定是人工智能乃至整個科學研究領域，最接近“通用人工智能”（AGI）的一次。也能明白，為何學者們在認真讨論GPT相關的“AI哲學”問題。

外界對于GPT的湧現不夠了解，容易低估它的科學發現意義。很多人就是關注各類GPT的聊天表現，ChatGPT和GPT4強大，國産的有差距。有些人對AI聊天中表現的強大推理能力贊歎，或者對AI聊天象模象樣地胡編亂造撒謊感到震驚。外界容易有一種傾向，似乎對GPT的研究，主要就是讓它聊得更好，更沒有破綻。

實際上，對于GPT的研究核心，應該是探索更多的“湧現”細節。微軟、谷歌等大公司，在試更大的模型，直接目的，并非是想讓機器人聊得更好，而是探索令人着迷的“湧現”。也許通過不斷催生GPT的湧現，最終通向了AGI，也許如楊立昆預測的，這條路不通。但無論如何，現在不是關注缺陷、完善産品的時候。也許等GPT的能力邊界探索清楚了，開發者就可以回過頭來，用能力去開發、想辦法避免缺陷。

值得注意的是，2022年初GPT3已經出現了很成功的“湧現”，甚至GPT4在2022年8月就已經預訓練出來了，但隻有少數專業人士驚歎，沒有爆火。直到ChatGPT（GPT3.5）通過RLHF（人工回報的強化學習），将輸出語言調試得讓人類感覺舒服，才在2022年底引爆了全球關注。

這說明人類很容易受“表象”的影響，即使是專業研究者也未能免俗。深度學習是真的“湧現”突破，但是在新聞界遠不如AlphaGo與人類對戰轟動。GPT3、GPT4的預訓練是讓“湧現”不斷出現的研發架構，潛力無限，但是RLHF的效果外界更關注。

對于國産大模型也是如此，上百家在開發，應該關注GPT的“湧現”。即使一些國産大模型因為資金和硬體條件有限，規模不是很大，對模型特性的探索也是有益的，能夠發現GPT湧現的特性，也許能加速湧現的發生。不用太在意國産大模型的缺陷，這無法避免，原因可能有多種，語料準備不夠、訓練時間不夠、算法細節問題。搭起了大模型研發架構，探索“湧現”的細節，總會有收獲。

對于大模型的應用生态，如果對GPT的“湧現”特性有了解，也許會有不同的感覺。不應該把大模型當成聊天機器人，這限制了想象力。GPT湧現出的推理、數學、資訊壓縮、多模态、内容生成等多種能力，這打開了全新的研發架構。就象深度學習，它既是探索架構，也是應用架構。

美國IT大公司正試圖用GPT改造整個軟體體系。大公司會象軍備競賽一樣，繼續擴大GPT的規模。更為普遍的行為，是開發工具鍊，将GPT應用做起來，讓開發者能夠加入進來，在各行各業應用GPT湧現出的能力。而後者才是中國更應該學習，也是有優勢的領域。

對于國産大模型的基礎能力，筆者并不擔心。例如科大訊飛的星火大模型3.0，評測認為接近ChatGPT的水準，準備2024年5月推出接近GPT4的星火AI 4.0。大模型評測是一個重要研究領域，标準還不是很統一，但顯然國産大模型能力在快速進步，與美國的差距說多了也就是2年。

對于某個問題，如果國産大模型的回答不如ChatGPT、GPT4品質好，輿論就會很關注。其實更應該關注“湧現”，如果中國公司的研發架構，能讓各類湧現不斷發生的，那麼本質上中美就在同一個賽道競争。也許美國大模型已經實作了4級湧現，中國還隻能3級，美國公司還消除了更多的bug，這會讓差距顯得很大。随着中國公司對“湧現”的研究越來越深入，差距都會補上。

真正影響大的，是大模型的應用生态。沒有生态，公司的大模型研發最終會難以為繼，即使OpenAI也覺得大模型開發、運維太花錢了。如果中國公司做起大模型應用生态了，就能疊代開發，針對性地改進行業應用中的缺陷，這是中國公司的拿手好戲。有些應用能成功，即使基礎技術不那麼強，但抓住了行業痛點，應用推廣了，生态做起來了，反過來又帶動基礎技術提升。

安徽的通用人工智能發展規劃對此了解較深，2025年要“充裕智能算力建成、高品質資料應開盡開、通用大模型和行業大模型全國領先、場景應用走在國内前列、大批通用人工智能企業在皖集聚、一流産業生态形成”。

中國的産業發展曆史，本身就是一個不斷“湧現”的過程。2000年以後，中國的衆多産業奇迹一般地不斷崛起。筆者從2013年起就一直鼓吹的安徽省會合肥，是全球城市增長最快的，2022年GDP相比2000年增長了37倍，本來産業沒什麼特色，卻湧現出了多個千億産業叢集，如新型顯示、內建電路、新能源汽車。

即使已經鼓吹多年，仍然會不斷被合肥與安徽的發展震驚。如安徽2023年汽車産量249.1萬輛，成為全國第二（廣東遙遙領先）。這次通用人工智能大賽在蕪湖舉辦，當地的奇瑞2023年生産了188萬輛汽車，自主品牌與出口都爆發增長了，2024年要沖擊400萬輛。合肥2022年新能源汽車産量25.5輛，同比增133%，2023年74.6萬輛，再增140%。合肥布局很好，比亞迪、大衆、蔚來都來了，目标是2025年新能源汽車産量200萬輛、2027年340萬輛！

用GPT來類比，中國的發展機制在改革之後，換成了Transformer（這個詞就有變革的意思），就發生了不可思議的産業“湧現”。

了解了GPT的“湧現”，再看美國政府打壓中國人工智能，連4090顯示卡 GPU都不讓賣了，就能明白，美國政府這是賭了，認為通用人工智能會有大突破。美國商務部長雷蒙多赤裸裸地說，要拖慢中國人工智能的發展。

但是中國已經有準備了，華為、科大訊飛等企業成為人工智能行業與美國鬥争的排頭兵。科大訊飛因為被美國放入實體名單，花了小半年的努力去适配國産GPU，這在全國是領先的。華為雲建設了3大AI算力中心，其中一個就是在安徽蕪湖。

産業發展是有慣性的，已經實作産業“湧現”的，在新興産業政策的規劃、實施上就有優勢。通用人工智能的發展，筆者同樣祝福、看好安徽。

■ 擴充閱讀

中美汽車競争？不存在的 | 陳經

清華光電融合晶片算力是GPU的3000多倍？媒體搞出的大新聞 | 陳經

沒人能“殺死”1.5萬億美元的英偉達 | 陳經

學習中國建立大市場内生增長模式，我們需要正視印度經濟崛起 | 陳經

■ 作者

陳經

獲中國科學技術大學計算機科學學士，香港科技大學計算機科學碩士，科技與戰略風雲學會會員，《中國的官辦經濟》作者。

人工智能大模型神奇的“湧現”到底是什麼？ | 陳經

繼續閱讀

訊飛星火首發智能體平台，靈活觸達大模型應用企業落地最後一公裡

位元組釋出視覺基礎模型ViTamin，多項任務實作SOTA，入選CVPR2024

北大 | CLIP模型語義資訊與3DGS，對3D場景的實時、精确語義了解

上交 | OccGen：生成式3D語義占用預測模型在自動駕駛領域新突破

萍聲細語（52）：精讀期刊論文-模型建構和模型分析部分

牛來了？外資集體做多A股，量子技術和人工智能成大風口丨蔣衍看盤

24fall格拉斯哥大學招收全獎博士生人工智能/資料驅動/機器人方向

支援130億參數大模型領跑行業，聯發科釋出最強智能座艙晶片

“模”不關心 or“模”逆之交：論交通大模型亂世發展趨勢 | YEF2024

張瑾：人工智能與商業變革

訊飛星火首發智能體平台靈活觸達大模型應用企業落地的最後一公裡

星塵智能釋出AI機器人，操作能力滿分，大模型加持

喜馬實踐：模型時代的音頻剪輯方式-雲剪輯按字剪輯

喜馬廣告算法優化實踐(一)：廣告CVR模型演進曆程

當「養老」遇上 AI 大模型

STAR模型：解鎖人生成功的四把金鑰匙