天天看點

為超越人類記憶,他們給ChatGPT配上了小抄

作者:钛媒體APP
文 | 追問nextquestion

“讀書破萬卷,下筆如有神。”這一古語在現代大模型的訓練過程中有了更為清晰的诠釋。在足夠多的訓練資料基礎上,AI在諸多任務上已獲得了比肩人類的表現。為了友善了解,一種觀點将大模型拟人化,認為大模型也與人類一樣,擁有記憶,甚至擁有相似的記憶模式和機制。然而,正如不應簡單将飛機類比為鐵鳥,人類記憶從産生到提取的過程,都與基于上下文預測下一個詞的語言模型有着本質的差別。

不過,對人類記憶的研究為我們了解大型模型的記憶機制提供了一個出發點。人類記憶分為長期記憶和短期記憶(又稱工作記憶)。對于大型模型而言,其“長期記憶”存儲在模型的億萬參數中,短期記憶則展現為模型一次對話中可回憶起的上下文長度的context。例如GPT-4的context是128k,這相當于可一次性輸入10萬漢字左右。

但這種類比真的有效嗎?大語言模型與人類記憶有何異同?我們又該如何借助人類的記憶機制解決大模型應用嘗試中所遇到的問題?

01 大模型的長期記憶與人類的相似

對于任何動物而言,其大腦功能都隻是為了在進化的無情篩選中勝出。作為交流工具的語言也并不例外。在語言中,諸如文法結構、遞歸嵌套等複雜特征,探究其最底層的目的,仍在于更高效、準确地完成溝通。既如此,在一般情況下,語言就不必追求完美無缺。對于經過人類強化調整過的大模型,其本質同樣是機率的、随機的。于是可以通過調整溫度(用于調整模型生成時文本創作和多樣性的超參數)這一參數,讓模型的輸出看起來更具有創造性。

就記憶而言,大模型與人類一樣,呈現出首因效應和近因效應 [1],尤其是當需要記憶的事實更多時(圖1)。

首因效應:primary effect,即先入為主,記憶時對第一印象念念不忘;近因效應:recency effect,即對事物的最近一次接觸給人留下深刻的感覺或認知。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖1:大模型的預測準确性随詞彙而呈現先下降再上升,與人類記憶類似。圖源:參考文獻1

這一性質是模型大小達到一定門檻值之後出現的湧現特征(圖2),而當模型參數隻有70M時,模型實際上無法預測更遠的單詞,是以也不會出現首因效應。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖2:不同參數大小的模型在預測不同位置單詞時的準确性。圖源:參考文獻1

在學習過程中,人類可以通過重複來提升記憶效果,這一現象在大模型中也會出現(圖3)。此外,相比于直接重複待學習的内容,将内容更改順序後重複學習,模型的效果還會有所提升。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖3:對比模型在面對重複内容時的預測準确性。圖源:參考文獻1

當人類在面對互相沖突的事實時,記憶會出現差錯,這意味着遺忘的原因不在于記憶随時間衰減,而在于記憶産生時存在幹擾。大模型在面對互相沖突的事實時,也會有類似的表現,當沖突越具體(例如沖突來自于同一個人而非不同國家的人),記憶的差錯就越明顯(圖4)。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖4:在加入不同類型的幹擾資訊後,大模型的預測準确性顯著下降。圖源:參考文獻1

此外,加拿大認知心理學家托爾文(Endel Tulving)認為,記憶的存儲和讀取是兩個互相獨立的過程,這一點也适合大模型,其訓練和推理過程中使用的機制截然不同。托爾文将長期記憶進一步分為陳述性記憶和程式性記憶,其中陳述性記憶包括語義記憶和情景記憶。

對于大模型來說,語義記憶對應于模型通過預訓練或微調過程積累的知識庫,這些知識隐式地存儲在其參數中。與此同時,情景記憶的對應展現在模型處理或生成文本時,依賴于特定上下文資訊的能力上。然而,當生成全新内容時,所需激活的是類似于程式性記憶的能力,這超越了單純的情景記憶。[4]

盡管在訓練過程中,大模型主要涉及到顯式的情景記憶的應用,程式性記憶并未顯著涉及。在推理過程中,大型語言模型利用輸入的上下文資訊來引用先前的對話或與目前語境相關的資料,這一過程可以被視為對情景記憶的模拟調用。這表明,盡管大模型在訓練過程中主要處理與特定執行個體相關的顯式資訊,它們仍能通過處理與之前互動相關的上下文資訊,展現出一種類似于人類情景記憶的能力。進一步地,有研究者認為,當模型接收到足夠詳細和具體的上下文資訊時,它能夠“激活”更複雜的行為模式,類似于人類的程式性記憶,進而展現出因果推斷、心智模拟等進階湧現能力。

雖然大模型和人腦在特定表現上呈現出相似性,但這并不代表兩者也有着相似的資訊處理機制。實際上,對于大模型為何會表現出這樣的特征,學界目前也還沒有明确的結論。例如上述研究中,我們并不清楚如果隻考慮大模型最上層的參數,能否重制諸如首因效應的特征,也不清楚當限定上下文的範圍時,模型的表現是否會改變。或許通過受限的大模型,可以更進一步定位大模型與人類記憶相似的子產品,進而有助于對此現象給予解釋。

02 大模型通過“外挂”增加記憶容量

了解記憶的對于拓展大模型的能力至關重要。正如解決數學難題時在草稿紙上記錄步驟可增強我們的工作記憶一樣,為大模型引入“記憶外挂”技術,可以幫助模型顯著提升其工作記憶。

例如,通過TiM系統應用,讓大模型在每次回答問題之前,都對外部的存儲空間進行一定處理,包括插入、遺忘和合并(見圖6)。這樣,大模型在應對多輪對話或問題時,可以更有效地處理并回憶上下文資訊,準确檢索出所需資訊。類似的方式還包括遞歸式生成場景記憶[6],該方法可視作讓大模型在每一輪回答完問題後,總結前一輪問題包含的上下文,将其放入外置記憶中,進而避免大模型在多輪對話時忘記前幾次談話中的内容。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖6:對比大模型傳統的記憶與新提出的TiM在回答問題時的表現。圖源:參考文獻5

為了解決長文本處理的挑戰,2023年在NIPS上發表的一篇論文提出了一種名為LongMem的方法[7]。這項技術應對的問題不是多輪對話,而是一次處理一個長文本。通過将長文本切分成多個部分,每部分由固定的大模型獨立處理,随後通過一個可訓練的殘差網絡綜合各部分資訊,根據提問的具體内容選擇最相關的部分進行回答。這樣,LongMem可以讓大模型更準确地提取資訊。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖7:LongMem機制的運作流程示意圖。圖源:參考文獻7

在機器人控制問題上,應用大模型同樣需要給其配上記憶子產品[8],這一類模型被稱為具身AI。在機器人控制任務中,具身AI的“眼睛”通過處理視覺傳感器的輸入來産生周圍環境的語言描述,之後其“神經Nerve”結合機器人的自身動作,生成以第一人稱為中心的狀态資訊描述。這些資訊随後被編碼并存儲于一個進階的語言處理系統中,即所謂的“大腦”。同時這個大腦還可根據導航任務,産生控制指令。

這樣的運作方式,能夠實作機器人與人經由自然語言的直接互動,還可利用大模型中存儲的海量常識,來識别和适應環境變化,例如某些東西是有生命會運動的,我需要避開它。這樣建構的機器人,就會在導航時“意識到”眼前的貓盡管趴着不動,也可能會在自己靠近後避開。這類具身AI的基礎,就在于生成、存儲及更新關于自身狀态的記憶模型。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖8:LLM-Brain具身AI的架構。圖源:參考文獻8

另一個應用大模型加記憶的例子來自于搜尋場景。研究者提出名為CoPS[9] 的架構,其由三個部分組成:外部記憶子產品存儲使用者的搜尋記錄和行為,之後交由大模型來推斷搜尋使用者的意圖及背景,并基于推斷的個人檔案對傳統搜尋引擎給出的連結進行重制排序,進而使搜尋引擎給出的結果更加個性化。由于利用了預訓練的大模型,CoPS可以進行零嘗試學習,即不需要招募測試使用者,收集使用者資料及回報,就可以利用大模型中的知識提升搜尋的準确性。

為超越人類記憶,他們給ChatGPT配上了小抄

▷圖9:CoPS架構。圖源:參考文獻9

通過向大模型增加外部記憶來拓展大模型的應用範圍,其還有衆多案例。研究表明[10],在被賦予可讀寫的關聯性外部記憶後,目前Transformer架構的語言模型在計算上可被視作“通用圖靈機”。這意味着,這些模型不僅能夠處理有限長度的輸入字元串,還能夠模拟任何算法,處理任意大小的輸入。

03 大模型的“幻覺”無需克服

認知科學家莉莎·費德曼·巴瑞特(Lisa Feldman Bartlett)指出:“記憶不是簡單地重新激活無數固定的、毫無生趣的、細碎的痕迹,而是一種富有想象力的重構或者建構。”這一描述似乎對大模型也頗為适合。

了解了生物記憶的不完美,我們也許不該再将大模型的“幻覺”視為一種需要克服的頑疾,而是将其視作一種内生的、不可避免的湧現特征。就如《紅樓夢》中賈寶玉所言,“古來杜撰的多了,偏我杜撰不得”。事實上,《紅樓夢》的作者也踐行了筆下人物的話,在書中杜撰了多個典故。可這絲毫不會影響《紅樓夢》的偉大。一旦我們将大模型的幻覺視作記憶生成過程中的副産品,就不應當在大模型自身的架構内試圖消除“幻覺”,而應通過外部記憶的方式解決幻覺在特定場景下帶來的問題。甚至,還可以将“幻覺”視作通向AGI過程中遇到的山谷,需要先設法讓模型增加幻覺,進而促進模型的創造力。

雖然無論對于大模型還是人腦,我們目前都沒有完全了解其記憶的運作機制。不過,神經科學研究中有着對記憶的多種分類方式,這或許提醒大模型開發者不應隻采用一種記憶模式。通過在大模型外部增加顯式的記憶,可以顯著提升大模型在長文本,以及多輪對話中的表現,同時擴充大模型的應用場景。這給隻想通過簡單擴大模型規模以卷出更好模型的開發者,提出了另一條更為經濟且資源節省的優化路徑。

在神經科學中,記憶是互相競争的,這樣的動态特征意味着記憶的提取、更新、強化與遺忘應當在同一架構下被審視。而在當今的大模型中,記憶的産生和讀取是互相獨立的。大模型不會由于反複讀取某段記憶就更新對其的存儲,而人類每次讀取長期記憶都是一次生成式的往日再現,反複讀寫之後,最初的原始記憶就可能發生改變,這也是之後大模型和記憶相關研究者需要注意的差異。

參考文獻

[1] https://arxiv.org/abs/2311.03839

[2] https://arxiv.org/ftp/arxiv/papers/2309/2309.01660.pdf

[3] https://arxiv.org/abs/2402.15052

[4] https://arxiv.org/pdf/2401.02509.pdf

[5] https://arxiv.org/pdf/2311.08719.pdf

[6] https://arxiv.org/pdf/2308.15022.pdf

[7] https://arxiv.org/pdf/2306.07174.pdf

[8] https://arxiv.org/pdf/2304.09349v1.pdf

[9] https://arxiv.org/pdf/2402.10548.pdf

[10] https://arxiv.org/abs/2301.04589

繼續閱讀