大規模語言模型在模仿人類語言行為上正變得越來越娴熟,比如近期火熱的ChatGPT,與人對話已經高度拟人化。
這也導緻了一種心理傾向,也就是拟人主義——把這些系統看得比實際情況更像人類,并總是不自覺地使用“知道”、“相信”、“認為”等詞彙,尤其是為了吸引流量的标題黨,這進一步加劇了這種趨勢。
但DeepMind資深科學家、倫敦帝國理工學院認知機器人學教授Murray Shanahan提醒我們,要想清楚LLM(Large Language Models)的工作方式,實際上與人類有很大的差别。
别把序列預測當認知
自BERT出現,一直到GPT-3、PaLM等大模型湧現後,不斷有人為“出人意料的資料”賦予新的含義。
Murray Shanahan在這裡要談論的,不是模型如何随着訓練資料集、參數規模的增大而突變,而是LLM的許多不可思議的能力隻源于簡單的序列預測。
維特根斯坦曾表示,人類的語言使用是一種集體行為,隻有人類在社會活動的大背景下才具有意義。
無論是嬰兒還是成年人,都是在通過與人類以及社會的互動語言來獲得知識和資訊。無論我們在發表演講、發送電子郵件還是撰寫論文,這些語言活動都是有意義的,因為我們居住在一個與其他語言使用者共享的世界裡。
與此相對的是,LLM的工作機制與人類有很大不同。
技術上來說,LLM是基于大規模文本語料庫統計分布的生成模型,基本的生成模式就一種,即“這是一個文本片段,根據你的語言統計模型,告訴我下一個文本片段是什麼?”
如果我們問,“第一個在月球上行走的人是_____”,LLM會回答,“尼爾·阿姆斯特朗”。
但這個過程實際上是這樣的——考慮到大規模文本語料庫中的詞語統計分布,哪些詞語最有可能出現在“第一個在月球上行走的人是____”的後面,沒錯,最有可能出現的詞語是“尼爾·阿姆斯特朗”。
同樣,當我們問“魔戒被毀後,弗羅多·巴金斯回到了____”,LLM會回答“夏爾”。但這背後的實際過程是——考慮到大規模文本語料庫中的詞語統計分布,哪些詞語最有可能出現在“魔戒被毀後,弗羅多·巴金斯回到了____”的後面,沒錯,最有可能出現的詞語是“夏爾”。
對于人類而言,上述兩個問題需要基于不同類型的知識進行推理。月球是真實存在的,“尼爾·阿姆斯特朗是真實的人;另一方面,魔戒、弗羅多·巴金斯、夏爾都存在于想象的虛拟世界中。第一個問題需要基于曆史現狀和實體可行性回答,比如人類目前的航天技術是否可以到達月球,但第二個不需要。
但對于LLM而言,這些思考過程都是不存在的,所有的問題都是一個序列補全任務而已。
所謂AI的“知識”、“了解”、“意識”并不存在。
正如《我們賴以生存的隐喻》中所述,人類在使用語言的時候,存在一個固有的傾向,就是把任何是人或非人對象的行為拟人化。
我們習慣于“伺服器無法與網絡對話”、“手表沒有意識到時差”這樣的表達,也就是用意圖來了解事物互動的友善措辭。
這同樣也适用于LLM。每個人都隐含地意識到,所謂“LLM的意識”不過是友善的表達。這一方面有助于語言的快速了解,另一方面也可能造成一種心理傾向。
圖注:不需要任何示例,隻是在所有任務(算術、符号、常識和其他邏輯推理)中使用相同的提示“讓我們逐漸思考” 任務,Zero-shot-CoT 就可以實作更好的多步推理。
圖源:Large Language Models are Zero-Shot Reasoners
特别是我們了解到,在論文“Large Language Models are Zero-Shot Reasoners”中,當一個LLM僅僅通過被告知“一步一步地思考”就能提高其在推理任務上的表現時,就更容易将其看成具備人類思維能力。
LLM是“新的圖靈機”?
當人類在回答“第一個在月球上行走的人是___”這個問題時,會采用多種手段。比如通過感官直接觀察,與另一個人交流,查閱維基百科、書籍等。并且,我們可以在人類社會或知識庫中尋找共識來評估某個答案(比如“尼爾·阿姆斯特朗”)的真僞。
但對于LLM,它的互動界面僅包含人類提供的文本提示,對于回答的真僞,它也僅有機率分布中的排序可以用于判斷“相對真僞”。
當然,我們也不得不認真審視序列生成機制的通用性背後的秘密。
我們或許會聯想到,圖靈機僅具有很簡單的規則,就在理論上具備了現代計算機的所有能力。類似地,元胞自動機、神經網絡也具有理論上的通用近似能力。
人們也在猜想,盡管LLM隻會做序列預測,但在此過程中,它已經悄然學會了更高層次的工作模式,湧現出了“知識”能力,最終或許能夠實作通用認知能力。
但過分依賴單一的推理機制的疊代會導緻的問題是,其在解決一些看似簡單的任務上也需要耗費大量的計算。是以,這些理論模型通常隻适合确定理論邊界,或者說每一類算法隻适合高效地解決特定問題。在實際應用中,通常是采用基于具備不同先驗偏置的多種系統的聯合決策。
另一方面,什麼是知識?知識僅僅是語言就能承載的嗎?LLM又如何能以人類認可的方式給出準确的決策?
我們曾提到,語言僅在人類社會的互動中有意義,知識實際上存在于人類社會對語言的使用和解釋行為中。而這種互動的可行性存在大量的前提,僅就最核心的一點,即“對方是和我一樣的人類”,就足以讓人類努力了幾千年仍進展甚微。
同樣,LLM要學會準确地決策,就需要嵌入現實世界的人類社會中與人類、社會系統進行互動,并且能夠在自身屬性上與人類毫無二緻,也就是所謂的“具身學習”,這至少在近期來看是不可能的。
那麼,長期來看,我們如何讓LLM一步一步地擁有人類的思維機制呢?
走了捷徑的LLM
視覺-語言模型(如DALL-E)的出現表明LLM的“拟人化”至少不是毫無希望。但這些模型的工作方式仍然存在機器學習的固有通病,也就是隻有關聯能力,沒有因果推斷能力,LLM是因為走了捷徑才擁有了表面上的認知能力。
人類社會的知識凝結了大量的互動曆史,是經過成千上萬次試錯,數百萬年的遺傳,數萬年的符号繼承,數百年的科學與因果革命,以及數不清的語言溝通與沖突,而從近乎随機的世界中收斂出了有限的生存規則。
是以,這些知識在指向性、因果性、層級性、抽象性、資訊量上,都不是隻會做有成百上千個選項的填空題的LLM可比拟的。
也就是說,在知識表達能力上,人類其實遠遠超出了LLM。LLM隻有它自己,缺少具備人類社會複雜度的世界模型,其經驗吸收與人類曆史相比有如滄海一粟,其自身的複雜性與每個人不可比,更與整個人類社會不可比。
而每一個人的知識,都由整個人類社會以及其成員、符号系統、物質基礎、知識庫等來表達和解釋。
圖注:Chain-of-thought prompting使大型語言模型能夠處理複雜的算術、常識和符号推理任務。
圖源:Chain-of-thougt prompting elicits reasoning in large language models
與因果相對的不依賴資料和統計的思維方式是邏輯。而近期研究比如論文“Chain-of-thougt prompting elicits reasoning in large language models”表明,用于邏輯推理的LLM表明其不但有足夠的推理能力,還能展示中間推理步驟。但人類的推理依賴的是不證自明的公理,公理的确立又不可避免地需要經過經驗的沉澱。
是以,與其對LLM濫用拟人主義措辭,搞清楚LLM是怎麼工作的,LLM的能力邊界,以及怎麼能讓它更好地工作,才是明智的做法。
參考連結:
https://arxiv.org/abs/2212.03551
https://www.reddit.com/r/agi/comments/zi0ks0/talking_about_large_language_models/