天天看點

李國傑:大力出奇迹的背後是什麼?| CCCF精選

作者:CCFvoice

目前流行的“規模即所需”(scale is all you need)是一種“假設”或“經驗規律”,“大力出奇迹”的背後可能是計算模型的變化和複雜系統的湧現。大模型的主要功能是“猜測加驗證”,不是經典的圖靈計算,本質是基于機率統計的不确定計算,其解決複雜問題的效率大大高于圖靈機模型。許多新現象無法用舊有的計算理論來解釋,我們需要對計算模型和人工智能的計算複雜性進行破舊立新的研究。

李國傑:大力出奇迹的背後是什麼?| CCCF精選

人工智能已經取得非凡的突破,國際上稱為“phenomenal breakthrough”。phenomenal本身有“非凡”的意思,可能是最早翻譯有關文章的學者英文水準不高,杜撰了“現象級突破”這個吸引眼球的奇怪中文,後來通過網絡傳播就被大家接受了。現象應該比本質低一個層次,但是“現象級突破”又被說成是最大的突破,曆史上隻有幾次,兩者相沖突。這是語言傳播中将錯就錯的一個案例。現象級突破其實就是指一個了不起的突破,一個非凡的突破。

我的看法是,生成式人工智能(AIGC)大大加速了人類向智能時代邁進的步伐,知識自動化的普及已成為第四次工業革命的标志,機器湧現了解能力對人類社會的影響絕不可低估。人工智能現在到底發展到了什麼水準?不同的人有不同的看法。有些“預言家”和媒體人士認為“奇點”臨近,人類已危在旦夕。但嚴肅的人工智能學者大多比較冷靜,認為人工智能仍處在伽利略(開普勒)時代或牛頓時代前夜。

總的來講,對人工智能的看法應該一分為二,也就是“兩點論”:一是人工智能技術在應用層面已取得前所未有的重大突破,對經濟和社會發展将産生深遠的影響;二是它在科學上尚未成熟,還需要做深入的基礎研究。

這一波人工智能令人既欣喜又困惑。大模型的開發與應用成為人工智能發展的重要趨勢,這導緻算力消耗在全球能源消耗中的占比從3%增長到近幾年的10%,預計到2030年可能會達到30%甚至更高。如果按算力每4個月翻一番的速度增長,10年内算力就會增長十億倍。急速增長的算力需求對現有能源體系提出了巨大挑戰。核聚變能源和量子計算技術普及以前難以滿足這種爆炸式的需求。目前我們還無法确定大語言模型(LLM)是否就是人工智能發展的終極方向,有不少學者對此仍持保留态度。本文嘗試從計算模式演變的角度探讨“大力出奇迹”背後的原因,并提出計算機科學領域的專家們需要關注的研究方向。

我從理查德·薩頓(Richard Sutton)2019年寫的一篇文章談起,這是OpenAI員工必讀的一篇部落格文章。薩頓是DeepMind公司的傑出研究科學家,被譽為“強化學習教父”。他在這篇文章中給出了一個重要結論:“苦澀的教訓:人工智能研究人員一直試圖将人類已知的知識建構到他們的智能體中,長遠來看,這種方法停滞不前,唯一重要的是利用計算。突破性進展最終是通過相反方法,基于搜尋和學習實作的。這種成功帶有苦澀,因為不是以人為中心的方法,而是依靠機器學習。”

這個教訓包含兩層含義:一是傳統意義上我們強調知識的重要性,認為“知識就是力量”,當然知識依然是一種力量,但資料和算力同樣是強大的力量,它們結合起來能夠産生新的知識;二是知識不一定由人創造,有可能是由機器生成,而人類尚不了解,這就是令人感到苦澀的原因。

GPT-4等智能技術,與20年前的人工神經網絡理論本質上并無差異,其原理可追溯至1943年麥卡洛克(McCulloch)和皮茨(Pitts)提出的神經元計算模型。GPT-4和Sora等智能生成技術并沒有提出新的人工智能原理,OpenAI和谷歌等公司主要起到工程放大作用。目前流行的一句話是“規模即所需”(scale is all you need),我認為這種說法并不是嚴格的科學判斷,隻能認為是一種“假設”或“經驗規律”,甚至是一種“信仰”或者說“豪賭”。

以OpenAI為代表的學者們歸納出了幾條“公理”,強調規模(scale)是制勝法寶。這些公理不像歐幾裡得幾何公理那樣久經考驗,但已有幾十年的研究曆史證明是對的,是以可以看作“假設性的公理”。第一條公理就是“苦澀的教訓”,人工智能領域所有的各種各樣的技術,都比不過算力支援的通用算法,是以應當認為,強大算力支援的通用算法(包含模型和資料)才是人工智能真正進步的方向;第二條公理是規模,即一旦選擇了良好且通用的資料标注、算法,就能夠找到一套通用的規律,資料越多,模型越大,效果就越好,而且這個規律在訓練之前就可以預知它的效果;第三條公理是湧現,随着規模的擴大、資料的增加,大模型一定會湧現出以前沒有的能力,這個能力可以被所有人看到。

第一條公理是說,大模型、大算力和大資料是通用人工智能(Artificial General Intelligence,AGI)的必要條件;第二條公理是說,大規模是AGI的充分條件,大就是好;第三條公理是檢驗公理。OpenAI等公司總結的經驗是:如果你能用scale解決問題,就不要用新的算法解決。新算法的最大價值是讓它怎麼更好地scale。這三條公理是用大白話描述的經驗總結,還有待今後的實踐驗證,而且表達上也不像數學公理那麼嚴謹,是以目前還隻能認為是一種“信仰”。

我認為,人工智能的突破得益于大資料、大模型和大算力,這三個“大”缺一不可,不能隻依靠其中一個。單純的算力不是萬能藥。就拿圍棋來說,如果圍棋棋盤擴大到20×20,暴力搜尋所需的算力需要提高1018倍,即從3361提高到3400,光靠算力無濟于事。

為什麼大模型擴大規模就能出奇迹?其背後的原因可能涉及計算模型和複雜系統,需要從計算複雜性的角度思考。計算機科學中讨論的“問題”,是指精确定義的包括很多問題執行個體(instance)的一個問題類,比如旅行推銷員問題(TSP)、布爾表達式的可滿足性問題(SAT)等。一個問題的計算複雜性是計算機科學中少有的不變量,如同品質守恒、能量守恒一樣重要。問題的計算複雜性不随算法的改變而改變。但這種不變性是針對同一個計算模型而言的,目前我們大多是在圖靈模型下讨論計算複雜性。在不同的計算模型下,同一問題的計算複雜性可能不一樣。最典型的例子是在量子計算模型下解決大數分解問題,Shor算法的計算複雜性是多項式級别,而在經典的圖靈模型下是指數複雜性。平時大家講不同計算模型的等價性是對可計算性而言,不同模型下計算複雜性的比較是我們關心的問題,但這樣的研究成果不多。

自然語言了解、模式識别等很多人工智能問題,以前是公認的困難問題,也有人說人工智能問題大多數是具有指數複雜性的NP困難問題(通俗地講,NP困難問題是指問題規模較大時計算機難以解決的問題),這隻是一種模糊籠統的說法,沒有給出嚴格的定義和證明。因為所謂人工智能要解決的問題,大多是指一類應用,如人臉識别、機器翻譯等。人工智能問題的計算複雜性究竟有多高,其實是講不清楚的。一篇文章從英文翻譯成中文,什麼叫做對了,什麼叫完成任務,并沒有一個嚴格定義。這些問題用現有的計算複雜性理論沒有辦法讨論,因為讨論計算複雜性一定要講清楚輸入、輸出是什麼,要解決的問題必須有嚴格的定義。

有人說,大模型解決人工智能問題效率高就是因為這種模糊性,不求最優解或精确解。但計算複雜性理論告訴我們,有些問題,如旅行推銷員問題,用神經網絡求近似解,仍然具有指數複雜性。而中國科學院計算技術研究所用機器學習方法全自動設計CPU晶片,正确率要求高達99.99999999999%(13個9),也能在5個小時内實作。可見僅僅是求近似解,并不是高效率的必要條件。

現在用大模型做機器學習,不管是文字、圖像、視訊生成,還是圖像、語音識别、機器翻譯、氣象預報等,實際效果比過去的方法好很多。究竟是什麼原因?與邏輯推理和過去的專家系統等人工智能方法相比,我們究竟改變了什麼?我認為是改變了計算模型(機器學習也是一種計算模型)。

計算模型有許多高低不同的層次,最高層次的計算模型也有很多種,除了圖靈模型外,還有λ演算、模拟計算(連續量計算)、量子計算等,現在大家在做的機器學習,是資料驅動的圖靈計算,不是經典的圖靈計算。所謂“圖靈機”不是指一台機器,而是指一個“過程”,圖靈模型定義了什麼過程是計算。圖靈機限制很多:第一,所有輸入的資訊必須是現成的,計算之前必須告訴它要輸入什麼;第二,計算過程與輸入源不能互動;第三,機器必須按照有限的确定性規則運作,在有限的時間内結束等。

圖靈計算是嚴格計算機科學意義下的計算,輸入輸出都是确定的,在不同的機器上計算,結果一樣,今天算與明天算結果也一樣,是以它解決問題的能力是恒定的。但現有的機器學習系統是與外界互動的,計算能力在到達飽和之前與日俱增。圖1參考了王培2023年8月24日在“科普中國·星空講壇”上的報告,其中黑線表示人們期望的具身AI系統,比現在機器學習系統具有更強的适應性,直接與現實實體世界互動,能學到現實世界的知識和規律,包括人類尚未掌握的知識。紅線是某些學者預測的能力指數級增長的超人智能,其存在性還有待驗證。“計算”的内涵已經發生變化,網絡上永不停機的互動式資訊服務和機器學習等已經不是嚴格意義的圖靈計算,但仍然使用同一術語,是以引起很多混淆和争議。

李國傑:大力出奇迹的背後是什麼?| CCCF精選

圖1 不同計算模型的能力随時間的變化

馮·諾伊曼最早認識到神經元模型不同于圖靈機模型,他指出:“圖靈機和神經網絡模型分别代表了一種重要的研究方式:組合方法和整體方法。麥卡洛克和皮茨對底層的零件作了公理化定義,可以得到非常複雜的組合結構;圖靈定義了自動機的功能,并沒有涉及到具體的零件。”馮·諾伊曼還做出預言:“資訊理論包括兩大塊:嚴格的資訊論和機率的資訊論。以機率統計為基礎的資訊理論大概對于現代計算機設計更加重要。”從目前大模型取得的成功來看,馮·諾伊曼的預言已經變成現實。對自動機理論而言,神經元模型可能比圖靈模型更有價值。神經網絡不是按照确定的算法實作圖靈計算,其主要功能是“猜測加驗證”。猜測和計算是兩個不同的概念,基于神經網絡的機器更合适的名稱是“猜測機”,而不是“計算機”。大模型的本質是基于機率統計的不确定計算,其解決複雜問題的效率大大高于圖靈機模型。

神經元模型與圖靈機模型幾乎同時提出,已經競争了幾十年。很長時間内圖靈機模型一直占上風,但辛頓(Hinton)等人從未放棄,直到2012年在ImageNet的圖像識别競賽中一鳴驚人,基于神經元網絡的深度學習才紅火起來。圖靈機計算模型和神經網絡計算模型各有優勢和不足,在不同的領域内表現各異,兩者不是取代關系,而是需要取長補短,互相配合。

值得指出的是,1948年,艾倫·圖靈寫了一篇題為《智能機器》(Intelligent Machinery)的論文,提出了“無組織機器”的概念,實際上這是早期的随機連接配接神經網絡模型,幾乎描述了目前人工智能聯結主義的基本原理,包括遺傳算法和強化學習。由于沒有得到他的老闆的認可,這篇文章一直沒有發表,到2004年才被發現。這篇文章表明,圖靈本人也看好神經元計算模型。如果學術界早點看到這篇論文,今天的計算機世界可能是另一幅模樣。

人工智能的基本假設是丘奇-圖靈論題(Church-Turing thesis),即“認知等價于計算”。1992年我在《模式識别與人工智能》期刊上發表的《人工智能的計算複雜性研究》一文中指出:“人工智能要走出玩小孩遊戲(toy problem)的圈子,隻有兩條出路,要麼承認Church-Turing假設,以現有計算機能力為基礎(與圖靈機能力隻差多項式倍),尋找合适的問題描述,發現人工智能中的易解問題;要麼不承認Church-Turing假設,尋求新的‘計算’模型,使得對人腦易解的問題在新的模型中也易解。”現在來看,當時的判斷經得起時間的考驗,尋找合适的問題描述和尋求新的“計算”模型,仍然是人工智能界的主要任務。

有人反駁我的觀點,說現在計算機中執行的每一步都是圖靈計算,我們是把其他的計算模型都“映射”到圖靈機,用圖靈機模拟其他模型。這可能涉及整體和局部的辯證關系。機器學習的整個過程像是一條彎彎曲曲的曲線,曲線的每一小段微分都可看作直線。也就是說,目前數字計算機的每一步具體操作是按照圖靈計算做的,但機器學習整個過程合起來已經不是圖靈計算。這裡可能隐含許多深層次的奧妙。在人工智能領域,我們需要對計算複雜性進行全新的研究,因為許多新現象的出現無法用舊有的理論解釋。目前存在一個問題:專注于複雜性研究的學者往往不涉足人工智能領域,而從事人工智能研究的學者通常對複雜性研究不感興趣。我相信這兩個領域結合起來會有原理性的突破。

馮·諾伊曼去世後被整理發表的著作“自複制自動機理論”(Theory of Self-Reproducing Automata)指出:自動機理論的核心概念在于複雜性,超複雜的系統會湧現出新的原理。他提出了一個重要的概念:複雜度門檻值。突破了複雜度門檻值的系統,由于在資料層的擴散和變異作用而不斷進化,可以做很困難的事情。現在的神經網絡模型有數千億個參數,可能已接近能處理困難問題的複雜度門檻值點。複雜度門檻值是一個十分深奧的科學問題,還沒有引起學術界的高度重視。複雜度門檻值并不等于模型的規模,需要深入研究。

對待大模型,企業界有不同的态度。籠統地講,可以分成“榔頭派”和“釘子派”。“榔頭派”是技術信仰派,信仰AGI、信仰縮放定律(scale law),追求模型的通用性,認為大模型就是個榔頭,什麼釘子都可以敲。“釘子派”認為要先找到釘子,榔頭才能起作用,更相信可以變現的商業場景。我認為榔頭和釘子都很重要,兩者要結合。人工智能還處在探索階段,要鼓勵技術途徑的多樣性。大模型是實踐證明的可行途徑之一,不能認為是碰運氣,要争取在大模型技術上迎頭趕上,有所突破。也要結合中國國情,走出自己的人工智能發展之路。人工智能技術應當更多地用在材料、醫療、工業控制等領域,産生實實在在的經濟效益。

當我們探索大模型時,可能會發現關于智力本質的新原理,就像實體學家在20世紀發現關于實體世界的新原理一樣。量子力學被發現時是非常違反直覺的,當智能的基本原理被發現時,它們可能同樣違反直覺。如果關于大模型的解釋一講就懂,那麼可能還沒有找到真正的原理。

2022年,科技公司創造了32個重要的機器學習模型,而學術界隻産生了3個,這與2014年形成了明顯的反差,當時大部分AI突破都來自高校。近年來約70%擁有AI博士學位的人才進入私營公司就業,20年前這個比例隻有21%。頭部科技公司對AI領域的“壟斷”愈發嚴重,學術界面臨前所未有的挑戰。技術發展方向完全被企業家和投資人控制不一定符合全人類的共同利益,科學家在引領科技良性發展中要發揮應有的作用。

注:2024年3月24日,筆者在鵬城實驗室和香港中文大學(深圳)舉辦的“人工智能+”院士論壇上作了題為“人工智能的進展和計算模型的演變”的報告,此文是在《觀察者》網整理報告錄音的基礎上重寫的文章。

李國傑:大力出奇迹的背後是什麼?| CCCF精選

李國傑

中國工程院院士,CCF名譽理事長、CCCF前主編。

特别聲明:中國計算機學會(CCF)擁有《中國計算機學會通訊》(CCCF)所刊登内容的所有版權,未經CCF允許,不得轉載本刊文字及照片,否則被視為侵權。對于侵權行為,CCF将追究其法律責任

CCF推薦

【精品文章】

  • 李國傑:迎接70年未有之大變局 | CCCF精選
  • 李國傑:成為優秀學者需要陶冶心靈 | CCCF精選
  • 李國傑:為計算機科學技術的大變局立言——祝賀CCCF出刊200期
  • 李國傑:中美學術交流的一朵奇葩——《David專欄文集》序言
  • 探索科技社團改革之路——《杜子德文集》序言
  • CCCF專欄 | 李國傑:有關人工智能的若幹認識問題

繼續閱讀