天天看點

大語言模型科普:湧現

作者:人人都是産品經理
提到大語言模型,大家都能夠聯想到一個突出能力,那就是湧現能力。那麼湧現能力是什麼?我們該如何了解湧現?本文針對該現象展開分析,為你科普大語言模型的湧現,希望對你有所幫助。
大語言模型科普:湧現
我喜歡簡單的快樂,那是複雜最後的避難所。——奧斯卡·懷爾德

提到大語言模型,經常會聽到其一個突出的能力:湧現能力。那麼湧現能力是什麼呢?想要深入了解湧現能力的讀者,建議仔細閱讀此文。

我們先來看一下湧現的定義:

一個系統所表現出來的特性與它的組成個體簡單相加所表現出的特性存在很大不同,這一整體的系統行為被稱作“湧現行為”。

提取定義中的關鍵字:系統、個體、特性、簡單相加、不同。

單看定義,湧現的含義似乎仍如霧裡看花,看得不是那麼真切。也有人套用“量變引起質變”解釋湧現能力。道理上講沒錯,但是對于清晰了解湧現似乎幫助也不大。

湧現是複雜科學中一個非常重要的概念。根據筆者的了解到的情況,隻能非常抱歉地告訴各位:以人類目前的知識和認知水準,還無法定量解釋湧現現象。

複雜科學本身就太複雜了(不然為什麼叫複雜科學呢),而且湧現現象也太常見了,資訊科學、神經學、生态學、經濟學、社會學等各個研究領域都存在大量的湧現現象。

那麼該怎麼了解湧現呢?

既然不能定量分析,那咱們就隻能定性分析。演繹法行不通,咱們就嘗試歸納法。

一、蜂群的湧現行為

蜜蜂是一種神經系統非常簡單的生物。

著名的動物學教授、諾貝爾獎得主弗裡施教授發現:蜜蜂可以通過一種叫“八字舞”的舞蹈來互相交流資訊。當一隻小蜜蜂在外面發現食物,例如一大片開得正盛的花海,它會興奮地飛回蜂巢,給同伴們表演一段熱情洋溢的舞蹈。這段舞蹈的飛行路徑就像阿拉伯數字“8”那樣,包含一個來回搖擺和一個回頭的動作。通過舞蹈的長度和頻率,蜜蜂能精确地告訴同伴食物的具體位置和距離。舉例來說,它搖起臀部的時間越長,代表食物距離就越遠。

更神奇的是,其他蜜蜂看到這段舞蹈之後,就能解碼出資訊,然後按照提供的位址找到那片花海盛宴。這就是大自然的奇妙算法:每隻蜜蜂的智力或許不高,但通過這種特定的交流方式,整個蜂群就能發揮出強大的“集體智慧”。

蜜蜂不僅會跳舞,還有一手避暑禦寒的本事。蜜蜂要繁衍下一代,就必須在狹小的蜂巢裡維持一個适宜的溫度。當蜂巢太冷的時候,蜜蜂們會緊緊擠在一起,瘋狂振翅以增加溫度。當蜂巢太熱的時候,蜜蜂們則會散開,扇動翅膀給蜂巢降溫。

有意思的是,每隻蜜蜂開始升溫或降溫翅膀的溫度臨界點,取決于它們的遺傳特征。也就是說,那些基因相近的蜜蜂,會在溫度低于某個點時覺得冷,聚集在一起“抱團取暖”。同樣,當溫度高于這個點時,它們也會因為“熱得慌”而散開,扇動翅膀給蜂巢降溫。

要了解這種現象,我們不能簡單地把蜜蜂群看成一群個體。實際上,蜜蜂群是一個複雜的系統,每隻蜜蜂都扮演着系統維持穩定的重要角色。雖然每隻蜜蜂的行為都有差異,但通過互相協調,它們最終達成了群體目标——維持蜂巢的溫度在最适宜的範圍内。

這種自組織的集體智慧實在太神奇了。“一支蜜蜂哪裡抵擋得了寒風”,但當蜜蜂聚集在一起就足以抵擋氣溫變化帶來的威脅。

二、蟻群的湧現行為

自然界中還有另外一種個體非常簡單,但是群體能力非常強大的生物——螞蟻。

螞蟻,雖然個體行為看起來純粹反射性地被外界條件所驅動,即幾乎完全是被外界環境驅使的。但這并不代表它們就是簡單的“行動機器”。實際上,螞蟻的大部分行為都可以用幾條簡單規則來描述。例如:

  • 用大颚緊緊夾住目标物;
  • 沿着資訊素的濃度上升或下降方向行進(資訊素是螞蟻用來編碼資訊的氣味,比如“這條路有食物”或“這條路要打仗”);
  • 死去的螞蟻會分泌一種激素,螞蟻會通過氣味判斷同伴是否活着。

一旦螞蟻遇到這些規則未涵蓋的新環境,它們會處在極大危險中。在規則之外的環境裡,大多數螞蟻,特别是工蟻,很難存活超過幾個星期。

不過,正是依靠這幾條簡單的行為規則,螞蟻群體發揮出驚人的智慧。每隻螞蟻都像是一個微觀的決策單元,它們互相協調、互相配合,最終彙聚成一個高效的整體。能完成非常複雜的任務,比如建造龐大的蟻穴、合作捕獵等。一個蟻群中各個成員的行為及其互相作用決定了整個蟻群的行為。然而作為一個群體,蟻群所顯示出的靈活性卻大大地超過了其個體成員的能力範圍。蟻群可以感覺并應對在很大地理範圍内出現的食物、外敵、水患和很多其他現象。蟻群能夠把領地延伸到很遠的地方,按照有利于群體的方式來改變周圍環境。蟻群的壽命一般要比其個體成員的壽命長幾個數量級。

這種簡單規則帶來的集體智慧,讓螞蟻這種體型微小的昆蟲,成為了地球上最成功的社會物種之一。它們靈活運用基本規則應對環境的變化,在漫長的演化曆程中不斷進化,最終在地球上得以廣泛的繁衍生息。

單看每一個蜜蜂/螞蟻個體,分析其身體結構和行為,我們絕對無法想象蜂群/蟻群能夠具備上述那般複雜的群體行為。即蜂群/蟻群出現了與蜜蜂/螞蟻個體簡單相加無法得到的集體智慧,這種集體智慧就是一種湧現能力。

生命遊戲的湧現行為:

康韋(Conway)的生命遊戲:在該遊戲中,系統在兩維網格中以步調一緻的方式運轉,其中每個細胞要麼是死的要麼就是活的。其規則如下:

  • 剛好具有三個“活”鄰居的“死”細胞将被“複活”,在下一個階段變成一個有活力的細胞,否則的話,它仍然是死的。
  • 擁有兩到三個生動活潑鄰居的活細胞能“存活”到下一個階段;否則,它就會消失(要麼出于“孤單”,要麼由于“過度擁擠”)。

總體來說,該系統中一個擁有中間數量(鄰居生命)的生命将得以延續(一個正向回報),然而過多或過少的鄰居生命将導緻死亡(一個負向回報)。

通過上述的簡單規則,在不同的初始狀态下,能夠将産生一系列在時空上都顯著的全局模式,這些全局模式由一系列簡單的微觀規則所湧現。

比如:生命遊戲中的一個滑翔機是一個貫穿于整個空間的活細胞的布局配置。在每一個連續的時間步長(從左到右),一系列活細胞基于簡單的、局部的遊戲規則而改變。在四個時間步長以後,重新出現了活細胞的初始配置,僅僅向右下移動了一個細胞的位置。如果左邊部分沒有受到幹擾,該結構就會繼續“滑翔”穿越整個空間。

大語言模型科普:湧現

還有更多神奇的生命遊戲模式,感興趣的讀者不妨自行搜尋,感受一下生命遊戲“湧現”出的魅力。

三、簡單的湧現行為探索

我們還可以設定一些更簡單的規則,友善我們觀察湧現行為。

8.1表是這樣一個映射:将每個可能的輸入狀态映射到某個輸出狀态。這個規則表的第一行(狀态0)規定,如果一個主體及其兩個鄰居在上一次采取的行動都是0,那麼該主體在下一個時期也将采取行動0。下一行(狀态1)表明如果目标主體和它左邊的鄰居上一次采取的行動是0,右邊的鄰居采取的行動是1,那麼該主體将采取行動1,等等。

大語言模型科普:湧現

取20個以環形前後相鄰的數字,即将20個數字首尾相連,這樣每個數字左右都有一個鄰居,可以根據鄰居和自己目前的狀态決定下一個狀态。

這個簡單規則導緻了一些有趣的系統行為。正如可從表8.2看到的,在整個圖表中湧現出了“由0組成的向下的三角形”這種一緻的宏觀結構。這些三角形态的規模遠遠超出了行為規則的規模。是以,即使個體行為隻是基于從三個位置上所觀察到的行動而決定,湧現出來的一緻的三角形結構所包含的位置卻遠多于三個(例如,在時間步12開始形成的一個三角形,它的底邊跨越了20個位置中的13個)。

大語言模型科普:湧現

這不由得讓人想到了亞當·斯密的看不見的手,系統中主體的行動就好像正被某種看不見的力量協調着一樣,創造出超出任何個體意圖的模式。

四、語言模型的湧現

大型語言模型的發展曆程并不完全一帆風順。

回顧深度學習發展的前10年,模型的性能提高主要依賴于網絡結構的變革。由于“模型尺寸呈指數增長,性能隻會線性增加”的語言模型的縮放定律的現象,研究人員發現,即便是最大的GPT-3模型,在有提示的情況下,其性能也不不如精心調教的小模型。同時超大的網絡規模極大增加訓練所需資料量、訓練和推理成本。

是以,當時并沒有必要铤而走險,投入大量資源去訓練一個“龐然大物”。

大語言模型科普:湧現

然而,随着神經網絡設計技術的日臻成熟,要僅通過優化網絡結構來獲得顯著性能提高已然困難重重。近年來,着計算機算力的提高和資料集規模的擴大,研究者開始把目光轉向模型規模的擴張。實驗結果顯示。

一旦模型大小達到某個“臨界品質”,其性能提高将遠超比例關系,呈現出量變引發的質變。簡而言之,當模型的參數數量超過某個門檻值,它會突然展現出遠超小模型的強大能力。這就催生了大規模預訓練語言模型的蓬勃發展,尤其在自然語言處理領域。

大語言模型科普:湧現

大語言模型的參數規模有多快呢?我們不妨來看一下有網友統計的大語言模型的參數量。據說現在功能最強大的大語言模型GPT-4的參數規模已經超過了萬億,短短4、5年的時間就增長了超100倍。

大語言模型科普:湧現

大語言模型為什麼能力這麼強大?本質的原因在于超大規模的參數。每個神經網絡單元都有簡單、可描述的運算規則,然而大量的神經網絡單元連接配接在一起,就湧現出組成其的神經網絡單元、層所不具備的能力。

那麼為什麼是語言模型的規模會出現暴漲,并且受到業内乃至社會的廣泛關注呢?

筆者認為原因之一如下:語言是人類最基本的符号系統之一。它是人們傳遞和交流資訊的主要方式之一。語言不僅是人們交流的工具,還是人們認知的基礎。語言推動認知的發展和變化,影響人們對自身、社會和世界的看法和了解。語言可以使人們意識到自己認知的差異,這種差異又反過來影響了語言本身的使用。

有許多研究都表明語言是人類了解世界的基礎。 例如,心理語言學家和神經語言學家發現,語言了解和産生的大腦機制涉及到一些基本的認知過程和神經網絡。這些過程和網絡在與語言無關的認知任務中也會被使用,例如視覺感覺和決策制定。此外,發展心理學家和認知科學家也發現,嬰幼兒通過語言來了解世界,而不會像成年人那樣依賴語言來思考和感覺。

是以大語言模型是一種對人類認知世界基礎方式的一種颠覆性技術,受到廣泛關注和具備巨大的應用前景也就不足為奇了。

總結

湧現無處不在,生物體、社群組織、科技、文化、文明等各領域湧現出的不可思議的特性,構成了我們身邊的世界。

通過聰明、複雜的方式,根據十分簡單的原則,我們可以用電線将幾個簡單的子產品單元(電阻、電容、電感和半導體)連接配接起來進而生産出擁有奇迹般強大力量、能夠以閃電般速度執行困難任務的複雜産品——電子計算機。

在意識知覺的背後卻蘊含着涉及數十億神經元的精緻而複雜的大腦活動,當這些活動持續半秒後意識才會湧現出來。意識是湧現系統現象,而不是大腦中的神經通路和神經元的總和所引發的後果。

基于資訊科學和腦科學的大語言模型,湧現出了類人的智慧。同湧現現象一樣,以人類目前的知識水準,難以解釋大語言模型的機理,然而仍然不妨礙我們觀察、總結、應用大語言模型。就像雖然我們不懂腦子為什麼能讓我們擁有智慧,我們仍然可以用自己的智慧去解決各種問題。

希望本文能對各位讀者了解大語言模型有所幫助,感謝閱讀!

專欄作家

一直産品汪,微信公衆号:apmdogy,人人都是産品經理專欄作家。邏輯型産品經理,緻力于将科學思維與産品經理方法論結合。關注人工智能、教育領域,擅長産品孵化、需求挖掘、項目管理、流程管理等産品技能。

本文原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀