天天看點

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

作者:袁岚峰

2023年12月24日,安徽主辦的全國通用人工智能創新大賽總決賽在蕪湖舉辦。這是中國計算機學會科創大賽中,專門關注通用人工智能的,與近來大模型的突破有關。大賽吸引了全國300多個項目團隊,80支隊伍進入複賽,省外團隊占比超80%,20支隊伍晉級總決賽。

合肥中聚源智能一套關于心理健康的軟硬體産品,用人工智能普适分析,對人的心理健康進行全周期的實時監護,獲得比賽一等獎。除現金獎勵,獲獎團隊在安徽落地還會得到最高3000萬元的綜合支援,合肥、蕪湖、宿州市都有項目簽約。

人工智能大模型不僅是通過對話讓人們感到驚奇,已經開始有許多項目落地了。這一切的關鍵,是人工智能大模型出現了神奇的“湧現”,本文對這個現象進行解釋。

一.人工智能再度爆火

ChatGPT引發的大模型熱度不減,中國短時間内推出了超過200多個。谷歌12月6日推出的大模型Gemini爆火,視訊示範讓人印象深刻,但引發造假争議。

AIGC(人工智能生成内容)進展層出不窮。深圳詩雲科技開發的HeyGen AI生成的短視訊中,郭德綱說起了流利的英語,泰勒斯威芙特說的中文音色、口型都能對上,引發哄動。Runaway、Pika等視訊圖像生成軟體效果很好,在中美科技圈爆火。Midjourney的圖像生成已經在市場上獲得了巨大成功,沒有投資者,僅40個員工就實作了2億美元年營收。遊戲公司的開發流程已經改變了,原畫師效率大增。AI相關的創業風投,是目前最火的,沒有之一。

2023年的人工智能,火得有些出人預料。本來人們以為這會是一次“人工智能寒冬”。

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

Gartner新興技術發展曲線

2016年初,Deepmind的AlphaGo下圍棋戰勝人類,引發了多年來最大一波人工智能熱潮,人們熱情一下起來了,逢會必談。但是之後熱度逐漸下降,就如許多業界人士揭示和預期的,深度學習有能力也有缺陷,不宜寄望太高。就如自動駕駛成為研發大坑,許多公司投入巨大卻難于突破。人工智能創業公司估值下降,風投在找突破口。這一切看上去很“正常”,符合技術發展規律,爆火時産生的過高預期破滅,熱情下降,業界人士繼續積累,從低谷恢複,在遠期将技術推廣應用。

即使是業界人士也沒想到,2023年人工智能大模型、AIGC能火成這樣。360創始人周鴻祎11月30日分享了去矽谷的見聞,稱“投資者對于沒有AI概念、沒有AI功能、沒有AI成分的公司已不會考慮”,“美國在賭人工智能這件事,整個投資體系、創業體系、大公司體系、傳統公司體系都在全面擁抱AI。”

從産業和技術影響來看,2023年的人工智能熱潮力度,已經超過了2016年。這是有原因的,很多研究者相信,人類社會發生了幾十年未見的,科學原理級的重大突破,不能憑經驗用一般的技術發展曲線去評估。

這個大突破,就是人工智能大模型的能力“湧現”(emergence)。本文将從技術角度解釋,什麼是大模型的“湧現”,它的意義有多大。

二.深度學習是一次科學突破“湧現”

人類科學突破,最經典、最為人熟知的領域是實體。從伽利略實驗、牛頓三定律開始,到20世紀上半葉相對論、量子力學成為高峰,這是科學領域最深入人心的發展曆程。新的實體現象、實體定律不斷被發現,多次引發科學突破,有的還帶來科技與産業革命。

從20世紀下半葉開始,重大的實體發現明顯減少,似乎能發現的宇宙基本規律就這些了。有些人認為,人類社會“科技停滞”了,重大科學發現、科技突破越來越少,甚至能力倒退,如航天登月。但是,如果從“湧現”的角度去分析,就會有不同的感受。

實體學曾經有很多“湧現”,技術進步讓科學家們能發明創造全新的實驗工具,發現讓人興奮的新現象、觀測驗證新理論。在量子力學初創的年代,幾年内就有非常多的大突破。科學發現往往不需要太深入的認識,即使隻有模糊不清的理論,隻要配上合适的工具與檢測儀器,就能帶來大突破。20世紀之前,人們意識到物質是由原子構成的,用光譜分析等手段就發現了很多元素,而原子的微觀理論仍然是不太清楚的。

實體學新現象很少了,人類科技也不會停滞。在生物、IT等領域,不斷有令人興奮的新發現,推動科技與産業進步。科學規律與現象不應該有等級高低的分别,隻要能給人們帶來認識世界、改造世界的新能力,都是原理級的大突破。人工智能是建構在實體知識體系之上的,但它的發現意義并不比實體基本規律要小。

人工智能大模型表現出來的能力湧現,可以類比于人類發現了電力,出現了讓人激動的全新現象,是潛力巨大的基礎科學發現。雖然真正了解的人還不多,但是業界人士正以幾十年沒見過的科學激情,探索新世界。

在人工智能超過60年的發展史上,産生過不少人們感興趣的新現象。但往往是争議多、價值沒有想象的大,明顯受限于發展階段,研發人工智能依賴的“工具”(也就是計算機硬體)能力不夠。對人工智能能力的批評、對重大缺陷的揭示,一直伴随着人工智能的發展,到大模型時代仍然是如此,如機器對話中難以消除的“幻覺”。

在上世紀50、60年代,感覺機等簡單結構、人工編寫算法程式下棋,已經讓學者們意識到,人工智能(Artificial Intelligence) 是一個新的科學領域了。但由于神經網絡結構過于簡單、人工代碼精心編寫AI程式困難、算法複雜度指數上升,人工智能早期遭遇了低谷。日本80年代選擇人工智能作為“第五代計算機”的突破方向,最後徹底失敗,技術資料一錢不值。

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

感覺機模型與“異或問題”

著名的“異或問題”是,明斯基等研究者指出,單層的感覺機通過調整神經網絡系數,可以對兩個輸入值的與、或、非成功輸出;但不管如何調整系數,也無法輸出異或的結果。理論上就不可能,其原理如上圖右邊的0和1在四個角交叉放置,無法劃一條直線把0和1各放一邊。推廣來說,如果兩種模式通過一個超平面“線性可分”,感覺機就能訓練收斂,但實際應用中絕大部分模式識别問題是非線性的。

“線性可分”的問題能用神經網絡訓練成功,從科學發現角度,是個新現象。上萬億個系數的大模型,其基本特性在最初的感覺機中都可以找到,調整系數、加減乘除簡單運算、數值結果解釋輸出。但這隻是馬後炮,由于當時的認識局限性,學界普遍把神經網絡看成意思不大的“玩具”,對應1974-1980年的第一次人工智能寒冬。科學界這類例子很多,研究成果有點意思,但後面沒進展就會逐漸冷下去了,很少能再熱起來。

80年代,楊立昆、辛頓(加上本吉奧,三人是2018年圖靈獎得主)等研究者引入多層神經網絡和意義極大的“反向傳播算法”(Back Propagation,簡稱BP),成功實作了精度足夠的手寫數字識别等成果,有了信封郵政編碼識别、支票識别等實際應用,工業應用越來越多。由于計算機性能上升,人工代碼精心編寫的下棋程式能力讓人印象深刻,國際象棋戰勝了人類世界冠軍。

這段時間的人工智能有發展,也算小有成就,但是在當時的IT大潮中,顯得不太突出。這對應1987-2016年的第二次人工智能寒冬,從投資角度是可以這樣了解。人們熱衷于軟體開發、通信、網際網路、手機APP等投資方向,人工智能不算熱門。

IBM的深藍開發代價很大,戰勝卡斯帕羅夫之後封存,後續發展和技術影響不大。人們認識到,靠人工代碼編寫人工智能算法,會被博弈問題的指數複雜度卡住,編寫的專家系統邏輯能力有限,難以應對複雜問題。這種“符号主義”的發展路徑,是當時人工智能的主流,頂尖成果代表業界,但是後面方向迷茫。

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

BP神經網絡結構,一個隐藏層

後來大放光彩的深度學習、大模型,在這個階段其基本結構和訓練架構已經有了。多層神經網絡前後連接配接,對應人工智能的“連接配接主義”。前向傳導計算出最終節點的結果,與樣本對比産生“誤差”,一層層反向傳播回去,用“梯度下降”等方法反複修改系數,讓誤差降低,優化整體的“損失函數”。這些看上去并不複雜的基本技術,通過反複訓練将損失函數降到極低,就能産生驚人的模式識别效果,将手寫數字等簡單模式識别出來。但是這個階段的多層神經網絡,能力還是有限,稍複雜的圖像模式識别問題就表現不佳,限制了技術應用。

2016年人工智能熱潮忽然興起,因為AlphaGo在極為困難的圍棋問題上(符号主義無能為力)戰勝了人類頂尖棋手,大大出乎預料,多少有些戲劇性。其實對業界人士來說,技術上算是水到渠成,是各種技術因素的組合成果,有傳統的MCTS(蒙特卡洛樹搜尋)博弈搜尋算法,也有深度神經網絡、強化學習、對抗生成網絡(GAN)等新技術運用。結果很好,但技術并不算太有突破性,是可以了解的,不少個人開發者都開發出了實力強大的圍棋AI。

對業界來說,2012年的圖像識别神經網絡AlexNet的基礎意義更大。AlexNet三人開發團隊包括導師辛頓,還有兩個學生,其中一人就是ChatGPT的技術核心Ilya Sutskever,他也參加過AlphaGo的開發。AlexNet依靠深層卷積神經網絡,在ImageNet圖像識别大賽中,錯誤率一舉降到15%,相比其它技術的30%有了巨大突破。這是真正讓業界興奮的進展:深度學習展示了它的神奇。

深度學習讓業界一舉從迷茫中找到了方向。計算機硬體速度不斷提升,還有GPU并行加速,訓練資料量也在迅猛增加。突破了瓶頸之後,深層神經網絡的能力就一下“湧現”了。短期内,深度學習成果就席卷了幾乎所有科學領域,人們的經驗被建構、被訓練,來到各種神經網絡結構中。機器翻譯品質突飛猛進,人臉識别能力驚人,繪畫以假亂真。這些進展其實在AlphaGo出現之前就發生了,社會知道“深度學習很厲害”這個說法,但沒想太遠。

這是一次真正科學意義上的“湧現”。計算機之前是作為工具幫助各科學領域的研究,主導的還是領域專業知識。但是忽然一下,各學科發現,連研究範式都變了。

這次深度學習的“湧現”,有兩層意思。一層是說,随着神經網絡規模、訓練機器速度、樣本數量不斷增加,到了一定規模以後,忽然一下就“量變到質變”,神經網絡能力躍升“湧現”,把圖像識别效果大幅提升。第二層是說,深度學習在圖像識别領域表現極好,這個能力還迅速推廣到了其它計算機領域,甚至改變了其它學科,能力的應用範圍也湧現了。

有意思的是,人們對AlphaGo關注極大,是因為終極意味的“智能”引發了很大興趣。許多人想象中,一個人形機器在思考着擊敗了人類棋手,人類的最後堡壘“智慧”被證明不如機器,工作将被機器取代,引發了很多哲學與社會思考。但AlphaGo代表的人工智能技術,與智能本質并無太大關系,是“人工”造出來的假象,它隻是巧妙地模拟了一個複雜的計算任務。社會慢慢習慣了之後,人工智能的能力邊界清楚了,2018年後關于機器智能的讨論迅速降溫,似乎又要回到寒冬了,投資熱度下降。

當然在業界來說,自從2016年人工智能爆火之後,并沒有什麼寒冬。開發者積極在各種領域應用深度學習,研究者探索新的神經網絡架構、訓練方法,不斷有各種成果出來,領域非常活躍。隻是外界認為“沒那麼神奇”,感覺平淡了。

按照明斯基式的數學了解,這次深度學習的突破,就是用極多的系數(幾百萬至上億個),建構了規模很大的數學公式,去拟合逼近了圍棋、圖像識别等複雜問題的解空間。從能力最簡單的“直線分割平面”發展成,用規模極大形狀複雜的超空間曲面去分割空間。而建構方法,是統計拟合,通過海量樣本對比統計誤差,反向傳播修改系數減小誤差,多次學習後誤差降到極小,數值模拟成功。樣本可以是人工标注的,也可以是自動生成的,硬體基礎是GPU加速并行計算(幾千個計算核心)。

筆者與人文學者交流時,把統計模拟的數學意義解釋清楚,對人工智能就“祛魅”,神奇的“智能”感覺消失了。而且這個統計模拟顯然會有缺陷,沒有堅實的邏輯基礎。它的成功是統計性的,什麼時候出現bug難以預期。

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

就如AlphaGo3:0勝人類第一高手柯潔,被認為徹底戰勝了人類,回頭看很可能是有重大缺陷的。研究者通過構造“盤龍眼”這樣的罕見棋形,擊中了圍棋AI的弱點,讓無比強大的AI犯簡單錯誤。圖為2023年2月,日本職業二段芝野龍之介執黑對圍棋AI絕藝的對局,黑棋誘導白棋走出一塊轉圈連上的棋(内部包圍了黑棋一塊活棋)。由于AI在訓練中極少出現這樣的棋形,會對棋塊的死活産生錯覺,最後大塊走死,業界認為所有圍棋AI都會有這個bug。

這種例子在各領域到處都是。以深度神經網絡為基礎的模式識别,會有難以消除的缺陷,應用于自動駕駛等安全領域會有很大的麻煩。某種程度上,這也是“第三次人工智能寒冬”說法的技術根源,達不到預期,一些研究者感到迷茫。

三.第二次人工智能“湧現”:大模型

正當業界普遍以為勞工智能短期不會再有巨大突破時,更大突破卻來了!

2022年底ChatGPT、GPT4接連引爆關注,全球IT大公司緊急購買英偉達GPU開發大模型。這次人工智能的表現,在業界看來,是真正接近了“智能”的本意,雖然還有争議。外界因為2016年來過一次熱潮,有過寄望過高的“教訓”,反而不是很“狂熱”。

人工智能的突破,往往是從一些看似簡單的任務開始。這次的大模型,就是從一個“簡單”的任務開始:預測下一個詞說啥。“語言大模型”的基本操作,就是一個接一個地往外吐詞,形式上就是這麼簡單。過去的聊天機器人、作詩機,人們也見識過,并沒有太特殊,沒想到在這個領域發生了巨大突破,可能會産生真正的“智能”。

隻學習人類的語言,機器是否能學成真正的智能,這有争議,楊立昆就強烈否認。但這是“AI哲學”的範疇,可以先不管,看看機器學習海量的“語料”會發生什麼。

GPT是Generative Pre-Trained Transformer,我們來看看具體的意思。Transformer就是一種神經網絡結構,2017年發明後,在機器翻譯這個任務中證明了能力,它并不複雜,隻是數量特别多,用來存放幾千億個系數。Generative是生成式,GPT會生成對話文字等内容,近期爆火的圖檔、視訊軟體也都是生成式應用。Pre-Trained是“預訓練”,一個了解就是把整個網際網路那麼大規模的語料文本,交給Transformer去學習,後來又增加了語音、視訊材料,多模态。語料甚至不用人工标注(選擇去除有害内容是另一回事),預訓練就是讓GPT預測文本語料中的下一個詞,不準就反向傳播調整系數。

這個任務聽上去很簡單,但是想想看,GPT會從中學到什麼?這就不簡單了。要注意,研究者将機器的存儲與訓練“算力”狠狠擴張,足以處理整個網際網路這麼多的語料。

一個傳統觀察是,學習語料,能讓機器學到“文法”和“語義”。在NLP(自然語言了解)領域的機器翻譯任務,人們就深有體會,研究者用人工代碼去實作文法、對單詞建立對應關聯,是死路一條,翻得很醜陋。而機器對着訓練文本自動學習,就能把一門語言的文法、單詞間的語義關聯建立起來,翻譯得象模象樣。它知道一些單詞互相是有關系,經常一起出現,出現時有什麼條件,這些關系都記在神經網絡系數中。Transformer資料結構就是能對一句話中的單詞,友善地建立關聯。

即使機器翻譯得很好了,人們也知道,機器并不了解這些話是什麼意思。按數學了解,機器是把一段話用encoder編碼了,然後再用decoder解碼成另一種語言。它是一種編碼、解碼的算法,調試好讓人們覺得翻譯得不錯。實際上,在翻譯機器看來,它面對的隻有一些“token”(記号),這些token互相有關聯,實際是什麼它不用知道。就象有确定答案的圍棋一樣(完全資訊博弈),翻譯的輸出也是相對确定的,是較為“容易”的任務(人類總是這樣,解決了就認為容易了)。

但是GPT預訓練的任務不是翻譯,而是預測下一個token。這比翻譯得象樣要難得多,想讓接下來的文本序列合理(這樣才會與人類語料大機率相符),它需要了解“事實”,甚至學會“推理”!這時,在人工智能領域,就“湧現”了真正讓人震驚的科學新現象。

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

以中國大模型中能力排前的科大訊飛“星火大模型”為例,它面對“從西安開車30分鐘為什麼沒到北京”的問題。在語料中不會有直接的答案,就需要對問題進行分解。了解“開車沒到”相關語料,就會引入“時間”與“距離”,然後再根據距離,去關聯西安與北京,還要引入“速度”,最後組合出的答案。這個過程,直覺上就不簡單,從形式上真的象是在推理。

在ChatGPT與GPT4的應用中,有極多這樣的案例,讓人們相信機器是真的有強大的推理能力了。OpenAI的人說,有時不知道GPT4是怎麼推出來,裡面的機制真的很神奇。

當然GPT也有很多邏輯缺陷,人們誘導出機器離譜的回答不難。但是從科學發現的角度看,新現象可以重複,即使應用需要條件、有缺陷,也是很不錯的實質突破。在以前,研究者認為聊天機器人隻是形式上的語言模仿者(現在也有很多人這樣看GPT),從未發現機器有如此強大的推理能力。看多了GPT的對話,明顯能感覺到,機器的資料結構中,真的蘊含了推理能力,不可能靠模仿出來。

對“新現象”興奮,而非更關注離譜的缺陷,正是研究者差別于普通人的特質。外界會要求補掉嚴重缺陷,否則就沒有通過圖靈測試,應用時不敢相信。但研究者會對機器表現出來的新能力更關注,知道這裡有“新世界”。實體學家對于可能的“新實體”極為關注,有點蛛絲馬迹都撲上去一堆分析,往往是失望。人工智能研究者當然會關注“機器推理能力是如何産生的”這類問題,是以大公司都瘋狂了,都撲上去了。研究大模型需要的算力、存儲、資金等硬條件太高,比深度學習要高多了,否則研究者會更多。但中美兩國的大模型數量已經非常多了,這種“大發現在前方”的集體興奮是從未有過的。

短短10年内,人工智能領域就出現了兩次科學原理級别的“湧現”,深度學習一次,大語言模型一次。也許外界不清楚意義,但業内人士真的産生了前所未有的熱情。

大模型是如何學會推理的?這也是可以描述的。一個類似的例子,是圍棋AI學會“征子”。AI的訓練是不斷進步的,一套“權重”對應一個版本。象圍棋這種有勝負的遊戲,可以讓AI從什麼也不會開始,讓各版本“自對弈”對戰,并根據對戰結果改進權重,表現好的權重成為勝利者繼續發展。這個訓練可以是分布式的,LeelaZero就是由衆多愛好者貢獻機器自對弈更新權重的。

人工智能大模型神奇的“湧現”到底是什麼? | 陳經

在訓練中,愛好者們明顯發現,正常的圍棋戰術,如打吃、提子、逃跑,AI各版本能很快學會,但是征子卻很難學會。因為它涉及相隔很遠的棋子之間的斜向關系,能不能扭來扭去吃掉,對AI很難。但時間長了,就會有某個幸運的權重版本,學會了判斷征子,而且會利用這個能力,對其它不會征子的版本大殺四方。學會征子,圍棋AI的神經網絡結構要足夠大,如20層可以10層不夠,要訓練很多盤自對弈。

GPT的預訓練實作推理能力,也是這樣的。首先網絡結構的規模要大,OpenAI從GPT2到GPT3、GPT4不斷擴大規模,幾千億個系數,規模夠了。然後訓練語料要多,訓練時間要長。剩下的,就是看GPT的能力怎麼逐漸冒出來,和圍棋AI的自對弈訓練一樣,簡單的能力先學會,複雜的後學會。

讓人震驚的科學發現是:GPT3非常成功,它在預訓練中學會了很複雜的推理!這就如同AlexNet對于深度學習的意義,GPT3讓業界認識到了大語言模型的極大潛力。

可以這樣了解,有一些GPT預測文本的任務,如果不會推理,肯定是做不好的。做不好,“損失”數值會比較大。GPT反複訓練,不斷用各種辦法修改權重,試圖降低“損失”,最終在某個時刻,把“損失”降下去了。而這就等價于,GPT具備了推理能力,輸出像模像樣了。

其實人類學習推理也是這樣,你會了,考試就能過,不然就過不了,蒙不過去。至于人類怎麼學會的,每個人有自己的方法,考試和應用才是評判标準。哲學上,如果說機器不是在推理,是在計算模仿,不是智能,這說不清。公平的評判就是,機器完成了需要推理的任務,那就是有了堆理能力,并且掌握了很多推理需要的“事實”。

OpenAI沒有按正常發論文公布GPT3、GPT4的技術細節,有些訓練技術人們隻能猜測。但業界人士總會有互相交流,員工也會被挖走,技術不可能一直是獨家的。是以GPT訓練技術就是在擴散,一些認知逐漸成為業界共識。GPT的成功在于搞出了“湧現”,這就是業界的共識。

這次GPT的湧現,還特别有哲學意味,比深度學習那次的湧現,有更多可以說的。

1. 類似于深度學習,網絡規模、語料、機器速度、訓練時間不斷增長,最終新的能力就湧現了,量變引發質變。這是正常的預期,人們之前隻是不确定,基于Transformer的GPT能否成功,不想極大投入。這一關已經過了,無數公司願意砸大錢了。

2. GPT的預訓練是在試圖降低“損失”,這個損失函數值是統一的。但不同于AlexNet的單一任務,GPT實際是有很多任務的文本輸出表現要提升。它可能某些場景對話難度低,表現得不錯,另一些場景要考驗複雜推理,甚至數學能力,就表現糟糕。GPT的湧現,并不是一次性的,而是各種類型的任務能力,從易到難,逐漸提升。也就是說,GPT的湧現,現象本身就很有多樣性,有很多值得探索的細節。例如某類任務的能力忽然湧現了,即使損失函數看上去差别不大,這對其它單任務訓練來說是新鮮的。再例如人們發現GPT的邏輯能力讓人印象深刻,但是涉及數學就要差不少。

3. GPT的湧現,還沒有達到終點。當人們發現“量變引發質變”的好事發生時,已經很激動了,也許隻是幾個小任務的成功,就能讓人們确信這一點。但繼續訓練,就會發現好事越來越多,人類文本蘊含的任務種類實際是無窮無盡的,難度會越來越大,考驗非常多種能力。GPT架構到底有多強大,人們還說不清,這種未知感更讓人興奮。人們就象在山洞裡尋寶,知道有寶貝,是什麼類型的不知道,這反而會招來更多尋寶者。深度學習的湧現,就容易判斷,能力有了,但再訓練也不會更好了,整個過程都熟悉了。

4. GPT的規模,還應該繼續擴大,從千億參數擴充到萬億參數,乃至更高。一般的深度學習任務,網絡規模夠了就行,再擴大也意義不大,反而可能“過拟合”。但是GPT要記憶人類社會的“事實”資訊,幾千億個系數規模顯然不夠。雖然它可以進行“資訊壓縮”,但這肯定會損失資訊。另一個直覺是,網絡規模擴大後,GPT的“潛能”也會增加,在複雜的啟發式知識海洋中遊蕩,發現深層的相關性。

看了以上的GPT湧現特性就能明白,研究者的興奮是超過深度學習那一波的。一些激進的學者認為,GPT架構就蘊含了真正的智能,真的開始思考人類被機器毀滅的事。一個有些奇怪的事是,OpenAI花了相當多的精力去進行AI安全的研究,甚至導緻公司内部“政變”式動蕩。GPT的湧現,确實很有人類的智慧特性,多樣、複雜、難以預測、潛力無限。是以,這肯定是人工智能乃至整個科學研究領域,最接近“通用人工智能”(AGI)的一次。也能明白,為何學者們在認真讨論GPT相關的“AI哲學”問題。

外界對于GPT的湧現不夠了解,容易低估它的科學發現意義。很多人就是關注各類GPT的聊天表現,ChatGPT和GPT4強大,國産的有差距。有些人對AI聊天中表現的強大推理能力贊歎,或者對AI聊天象模象樣地胡編亂造撒謊感到震驚。外界容易有一種傾向,似乎對GPT的研究,主要就是讓它聊得更好,更沒有破綻。

實際上,對于GPT的研究核心,應該是探索更多的“湧現”細節。微軟、谷歌等大公司,在試更大的模型,直接目的,并非是想讓機器人聊得更好,而是探索令人着迷的“湧現”。也許通過不斷催生GPT的湧現,最終通向了AGI,也許如楊立昆預測的,這條路不通。但無論如何,現在不是關注缺陷、完善産品的時候。也許等GPT的能力邊界探索清楚了,開發者就可以回過頭來,用能力去開發、想辦法避免缺陷。

值得注意的是,2022年初GPT3已經出現了很成功的“湧現”,甚至GPT4在2022年8月就已經預訓練出來了,但隻有少數專業人士驚歎,沒有爆火。直到ChatGPT(GPT3.5)通過RLHF(人工回報的強化學習),将輸出語言調試得讓人類感覺舒服,才在2022年底引爆了全球關注。

這說明人類很容易受“表象”的影響,即使是專業研究者也未能免俗。深度學習是真的“湧現”突破,但是在新聞界遠不如AlphaGo與人類對戰轟動。GPT3、GPT4的預訓練是讓“湧現”不斷出現的研發架構,潛力無限,但是RLHF的效果外界更關注。

對于國産大模型也是如此,上百家在開發,應該關注GPT的“湧現”。即使一些國産大模型因為資金和硬體條件有限,規模不是很大,對模型特性的探索也是有益的,能夠發現GPT湧現的特性,也許能加速湧現的發生。不用太在意國産大模型的缺陷,這無法避免,原因可能有多種,語料準備不夠、訓練時間不夠、算法細節問題。搭起了大模型研發架構,探索“湧現”的細節,總會有收獲。

對于大模型的應用生态,如果對GPT的“湧現”特性有了解,也許會有不同的感覺。不應該把大模型當成聊天機器人,這限制了想象力。GPT湧現出的推理、數學、資訊壓縮、多模态、内容生成等多種能力,這打開了全新的研發架構。就象深度學習,它既是探索架構,也是應用架構。

美國IT大公司正試圖用GPT改造整個軟體體系。大公司會象軍備競賽一樣,繼續擴大GPT的規模。更為普遍的行為,是開發工具鍊,将GPT應用做起來,讓開發者能夠加入進來,在各行各業應用GPT湧現出的能力。而後者才是中國更應該學習,也是有優勢的領域。

對于國産大模型的基礎能力,筆者并不擔心。例如科大訊飛的星火大模型3.0,評測認為接近ChatGPT的水準,準備2024年5月推出接近GPT4的星火AI 4.0。大模型評測是一個重要研究領域,标準還不是很統一,但顯然國産大模型能力在快速進步,與美國的差距說多了也就是2年。

對于某個問題,如果國産大模型的回答不如ChatGPT、GPT4品質好,輿論就會很關注。其實更應該關注“湧現”,如果中國公司的研發架構,能讓各類湧現不斷發生的,那麼本質上中美就在同一個賽道競争。也許美國大模型已經實作了4級湧現,中國還隻能3級,美國公司還消除了更多的bug,這會讓差距顯得很大。随着中國公司對“湧現”的研究越來越深入,差距都會補上。

真正影響大的,是大模型的應用生态。沒有生态,公司的大模型研發最終會難以為繼,即使OpenAI也覺得大模型開發、運維太花錢了。如果中國公司做起大模型應用生态了,就能疊代開發,針對性地改進行業應用中的缺陷,這是中國公司的拿手好戲。有些應用能成功,即使基礎技術不那麼強,但抓住了行業痛點,應用推廣了,生态做起來了,反過來又帶動基礎技術提升。

安徽的通用人工智能發展規劃對此了解較深,2025年要“充裕智能算力建成、高品質資料應開盡開、通用大模型和行業大模型全國領先、場景應用走在國内前列、大批通用人工智能企業在皖集聚、一流産業生态形成”。

中國的産業發展曆史,本身就是一個不斷“湧現”的過程。2000年以後,中國的衆多産業奇迹一般地不斷崛起。筆者從2013年起就一直鼓吹的安徽省會合肥,是全球城市增長最快的,2022年GDP相比2000年增長了37倍,本來産業沒什麼特色,卻湧現出了多個千億産業叢集,如新型顯示、內建電路、新能源汽車。

即使已經鼓吹多年,仍然會不斷被合肥與安徽的發展震驚。如安徽2023年汽車産量249.1萬輛,成為全國第二(廣東遙遙領先)。這次通用人工智能大賽在蕪湖舉辦,當地的奇瑞2023年生産了188萬輛汽車,自主品牌與出口都爆發增長了,2024年要沖擊400萬輛。合肥2022年新能源汽車産量25.5輛,同比增133%,2023年74.6萬輛,再增140%。合肥布局很好,比亞迪、大衆、蔚來都來了,目标是2025年新能源汽車産量200萬輛、2027年340萬輛!

用GPT來類比,中國的發展機制在改革之後,換成了Transformer(這個詞就有變革的意思),就發生了不可思議的産業“湧現”。

了解了GPT的“湧現”,再看美國政府打壓中國人工智能,連4090顯示卡 GPU都不讓賣了,就能明白,美國政府這是賭了,認為通用人工智能會有大突破。美國商務部長雷蒙多赤裸裸地說,要拖慢中國人工智能的發展。

但是中國已經有準備了,華為、科大訊飛等企業成為人工智能行業與美國鬥争的排頭兵。科大訊飛因為被美國放入實體名單,花了小半年的努力去适配國産GPU,這在全國是領先的。華為雲建設了3大AI算力中心,其中一個就是在安徽蕪湖。

産業發展是有慣性的,已經實作産業“湧現”的,在新興産業政策的規劃、實施上就有優勢。通用人工智能的發展,筆者同樣祝福、看好安徽。

■ 擴充閱讀

中美汽車競争?不存在的 | 陳經

清華光電融合晶片算力是GPU的3000多倍?媒體搞出的大新聞 | 陳經

沒人能“殺死”1.5萬億美元的英偉達 | 陳經

學習中國建立大市場内生增長模式,我們需要正視印度經濟崛起 | 陳經

■ 作者

陳經

獲中國科學技術大學計算機科學學士,香港科技大學計算機科學碩士,科技與戰略風雲學會會員,《中國的官辦經濟》作者。

繼續閱讀