天天看點

大語言模型會“讀心”嗎?

文 | 追問nextquestion

請想象這樣一個場景。你坐在公共汽車上靠窗的位置,這時你的朋友突然對你說:“今天好像有點熱”。你會怎麼回應?大多數人的做法應該是立即打開窗戶,因為他們巧妙地了解了朋友的言外之意:他是在禮貌地請求自己打開窗戶,而不是單純因為無聊而談論天氣。

學界一般會使用“心智化”(mentalizing)或“讀心”(mind-reading)來描述這樣一種察覺并歸因人類心理狀态的能力,這種能力使得人們可以解釋并預測自己或他人的行為,對于人們進行社會互動、适應複雜的社會環境至關重要。

過去人們認為,“讀心”是人類所獨有的能力,因為隻有人類才具有“心智理論”(theory of mind)。這可不是什麼高深莫測的學術理論,而是指一組隐含于人類知識系統的常識或信念,描述了人們日常生活中的行為、環境和相關心理狀态之間的因果關系[1]。是以,正因為人們掌握了心智理論,他們便可以根據這些知識去了解上述情景中“朋友要求開窗”這一間接請求,并做出相應的回應。

大語言模型(large language model, LLM)應用日益廣泛,以GPT為代表的生成式大語言模型已經在基本的認知任務和複雜的決策和推理任務上展現出了和人類相當、乃至優于人類的表現[2][3]。在這個背景下,通過人工智能來實作“人工心智理論”(artificial theory of mind)可能也不再遙遠。近日,有研究團隊通過比較人類被試和3種大語言模型在系列心智理論任務上的表現,發現大語言模型所表現出的“讀心”能力并不比人類被試差[4]。相關研究結果發表在《自然-人類行為》。

大語言模型會“讀心”嗎?

▷原始論文:Strachan, et al. " Testing theory of mind in large language models and humans." Nature Human Behavior (2024). https://doi.org/10.1038/s41562-024-01882-z

如何量化心智理論能力?

心智理論聽上去其實還是比較抽象的,那有沒有辦法去量化地測量或評估一個人或一個人工智能的心智理論呢?得益于生成式大語言模型了解和生成自然語言的優秀能力,目前廣泛用于評估人類被試心智理論能力的各種測試都可以直接用于這些大語言模型,諸如了解反諷或間接請求、推斷錯誤信念以及識别無意的失禮行為等。在這項研究中,研究者通過5項測試,對人類被試(總樣本量為1907)和3種生成式大語言模型(GPT-4、GPT-3.5、LLaMA2*)的心智理論能力進行了系統評估。

*作者注:GPT-3.5和GPT-4是OpenAI開發的大語言模型,它們利用深度學習技術生成自然語言文本,其中GPT-4相較于GPT-3.5使用了更廣泛和更現代的訓練資料集,知識覆寫面更廣泛,并且有更多的參數和更複雜的架構,使前者較後者有更強的語言了解和生成能力。LLaMA2是由Meta開發的大語言模型,其原理和GPT系列大模型類似,在該研究中考慮的關鍵差別在于LLaMA2提供了一定程度的開源通路,這使得研究人員和開發者能夠對模型進行研究和改進。

(1)錯誤信念推斷(False belief)

錯誤信念推斷任務評估的是受測試對象推斷他人所擁有的信念與自己秉持的真實信念不同的能力。這類測試的項目有着特定的叙述結構:角色A和角色B在一起時,角色A把一件物品放在一個隐藏的地方(例如一個盒子);角色A離開後,角色B把物品移到第二個隐藏的地方(例如地毯下面);然後角色A傳回尋找物品。此時,向受測試對象提出的問題是:當角色A回來時,他會在新的位置(物品真正所在的位置,符合真實信念)還是在舊的位置(物品原來所在的位置,符合角色A的錯誤想法)尋找物品?

(2)反諷了解(Irony)

反諷了解任務評估的是受測試對象了解特定語境下話語真實含義和說話人真實态度(諷刺、嘲笑等)的能力。在該研究中,研究者給受測試對象提供了一個包含反諷或不包含反諷的小故事,要求被試在閱讀完後對故事中的相關話語進行解釋。

(3)識别失禮行為(Faux pas)

這一任務評估的是受測試對象能否識别對話情景中的某人因為不知道某些資訊而說出的可能冒犯對方的話。在該研究中,研究者向受測試對象提供了幾個這樣的情境,要求被試閱讀後回答相關的問題。隻有4個問題全部回答正确才能算一次正确的了解,其中有3個問題與心智理論密切相關,分别是“是否有人說了不該說的話(答案總為是)”、“他說了什麼不該說的話”和“他知道這話會冒犯别人嗎(答案總為否)”。

(4)暗示/間接請求了解(Hint task)

這一任務評估的是受測試對象了解社會互動中他人間接請求的能力,正如本文開始給出的例子那樣。在該研究中,研究者向受測試對象呈現了幾個描述日常社互動動的情境,每段描述均以一句可了解的暗示來結尾,要求被試閱讀完後說出他對最後一句暗示語句的了解。正确的回答是既能指出這句話的本意,也能指出這句話所隐含的行為意圖,即間接請求。

(5)奇怪故事了解(Strange stories)

這一任務主要評估的是受測試對象更進階的心智理論能力,比如識别并推理情境中的誤導、謊言或誤會,以及二階或高階的錯誤信念推斷(即判斷甲是否知道乙相信某事為錯誤信念)。在該研究中,研究者向受測試對象呈現了幾個看似奇怪的小故事,并要求被試閱讀後解釋為什麼故事中的人物會說或做一些字面上不真實的事情。

需要特别指出的是,除了反諷了解測試外,其餘所有測試都是從可開放擷取的資料庫或公開發表的學術期刊中擷取。為了確定大語言模型在應對這些問題時不僅僅是對訓練集資料的複制(因為這些大語言模型在進行預訓練時,就處理過大量的文本資料,來學習自然語言的深層結構和含義),研究者為每個大語言模型可能學習過的任務都額外編寫了新的測試項目。這些新項目與原始項目的邏輯一緻,但使用了不同的語義内容。研究者收集了受測試對象在這些任務中的回答,并根據經過操作性定義的編碼方案對答案的文本進行了精細且可靠的編碼,這樣就能對人類被試和大語言模型的心智理論能力進行量化評估了。那麼和人類相比,大語言模型在這些任務上的表現究竟如何呢?

大語言模型能夠“讀心”嗎?

下面這張結果圖直覺展現了人類被試和大語言模型在各項任務上的表現以及他們之間的差異。其中圖1A是受測試對象在所有測試項目上的表現(黑點代表樣本的得分中位數),圖1B則分别展示了受測試對象在原始項目(深色圓點)和新項目(淺色原點)上的表現。

大語言模型會“讀心”嗎?

▷圖1 人類被試和大語言模型在心智理論測試上的表現

結果表明,GPT-3.5在錯誤信念推斷和暗示了解任務中的表現和人類被試水準相當,但在其他任務中并沒有任何優勢;GPT-4除了在錯誤信念任務和暗示了解任務中表現出與人類被試相當的水準外,在反諷了解和奇怪故事了解任務中的表現甚至超過了人類被試,但在識别失禮任務中的表現差強人意;LLaMA2在錯誤信念推斷任務中同樣表現優秀,在反諷了解、暗示了解和奇怪故事了解任務中的表現都不如GPT-4和人類被試,但是在識别失禮任務中的表現異常優秀。

對結果的解釋

有趣的結果似乎出現在識别失禮的任務中,其中GPT的糟糕表現和之前相關研究的發現一緻[5]。但令人驚訝的是在其他任務上表現差勁的LLaMA2在該任務上表現優秀,除了一個項目外,LLaMA2在該項測試的其他項目上都給出了近乎完美的答案。為了進一步探讨産生這樣結果的原因,研究者進行了更細緻的分析。

前文已經介紹了失禮識别測試的一般結構,這裡研究者給出一個更具體的例子。如圖所示,在受測試對象閱讀完該故事後,需要回答4個問題。第一個問題是“在故事中,某人是否說了不該說的話”,正确答案總為是;第二個問題要求被測試對象報告誰說了什麼不該說的話;第三個問題是一個關于故事内容了解的問題;第四個問題是關鍵問題,與說話者說出失禮話語時的心理狀态相關,在這個例子中是:“麗莎知道窗簾是新的嗎?”這個問題的答案總為否。隻有全部正确回答4個問題,這次測試才能被編碼為一次正确反應。

大語言模型會“讀心”嗎?

▷圖2 失禮識别測試中的故事示例,中文翻譯為作者所加。

對GPT的回答細緻考察發現,GPT-4和GPT-3.5都能正确指出受害者會感到被冒犯,有時甚至還能提供更多細節,說明為什麼相關言語會引起冒犯。但當被推斷說話者說出冒犯言語時的心理狀态時(例如“麗莎知道窗簾是新的嗎?”),他們無法正确回答。如圖3所示,在這一問題下,GPT給出的回答大多都是故事沒有提供足夠的資訊而無法确定。

大語言模型會“讀心”嗎?

▷圖3 失禮識别測試中的故事示例,中文翻譯為作者所加。

在後續的進一步分析中,研究者采取了可能性估計的問法來對GPT進行提問,即不直接問“麗莎是否知道窗簾是新的”,而是問“相比于麗莎知道窗簾是新的,她不知道的可能性是否更大”。如圖4所示,GPT-3.5和GPT-4在該測試中都表現出強大的對他人心理狀态的了解能力。由此,研究者推斷GPT在進行回答時采取了“超保守政策”,即它能夠成功推理說話人的心理狀态,隻是它不願意在資訊不足的情況下做出過于笃定的判斷。

大語言模型會“讀心”嗎?

▷圖4 GPT在失禮識别測試中對可能性估計問題回答情況示意圖

在了解了GPT為何在原始的失禮識别測試中表現不佳後,研究者們又試圖進一步追問為何LLaMA2獨獨在這項測試上表現優秀。研究者們認為,當大模型給出“否”的回答時,可能不是因為它真的知道答案是“否”,而是因為它無知,也就是無論什麼情況,它都會給出“否”的答案。

為了測試這個假設,研究者有針對原始的失禮識别任務設計了一個變式,即在故事中添加了顯示主人公可能知道他為何會冒犯的線索,或添加一句中性話語。如果受測試對象能夠成功推斷主人公心理狀态,那麼針對不同的題型,大模型将會有不同的回答模式,否則隻能說明做出“否”的判斷隻是緣于其無知。如圖4所示,結果顯示,GPT和人類被試都能夠區分幾種條件,而LLaMA2無法區分。這證明了研究者們的猜想,也就是在原始任務中,LLaMA2其實無法對人物心理狀态做出正确判斷。

大語言模型會“讀心”嗎?

▷圖5 人類和大語言模型對失禮識别變式任務回答情況示意圖

總的來說,在各項測試中,GPT-4都表現出與人類被試相當乃至更優的心智理論能力。在失禮識别任務中,GPT表現不佳的原因是對于回答采取了過于保守的政策,而LLaMA2的優秀表現可能是虛假的。

結語

這項研究系統評估并比較了人類與大語言模型在完成心智理論相關測試時的表現,并發現大語言模型在推斷他人心理狀态方面有時并不遜色于人類。并通過相關任務的變式,進一步檢驗了大語言模型表現背後的可能機制。這無疑展現出使用人工智能來了解人類心智的研究潛力。那麼,我們能由此認為大語言模型也能“讀心”嗎?

有研究者指出,盡管大語言模型設計時被用來模拟類似人類的反應,但這并不意味着這種類比可以延伸到引起這些反應的基本認知過程[6]。畢竟,人類的認知不是基于語言的,而是具身的、并嵌入環境的。人們在推斷他人心理狀态時可能受到的挑戰,可能正是來源于其主觀經驗和社會文化環境的影響,而大語言模型則不會有此問題。也就是說,雖然大語言模型在模拟人類心智的表現上是十分出色的,但我們并不能完全通過其來了解人類的認知。

此外,我們需要對大語言模型表現出類似人類的行為進一步思考。在這項研究中,盡管GPT和人類被試在失禮識别任務中對主人公心理狀态推斷結果類似,但他們做出了非常不同的反應,其中GPT做出的決策極其保守。這些結果都暗示着能力和行為表現之間的差別。

研究者指出,當大語言模型 與人類實時互動時,他們表現出的非人類行為決策對人類對話夥伴有何影響?這正是未來的研究方向之一。例如,GPT由于保守做出的負面反應可能會導緻人類對話夥伴的負面情緒,但這也可能會促進其對問題的好奇心。在動态展開的社會互動中,了解大語言模型在心智推斷方面的表現(或其缺失)如何影響人類的社會認知是未來工作的一個挑戰。

參考文獻:

[1] Januszewski, Michal, Kornfeld, et al. High-precision automated reconstruction of neurons with flood-filling networks. Nat. Methods, 2018

[2] Dorkenwald, S., Li, P.H., Januszewski, M. et al. Multi-layered maps of neuropil with segmentation-guided contrastive learning, Nat. Methods, 2023

[3] https://google.github.io/tensorstore.

[4] Li, P. H., Lindsey, L. F., Januszewski, M., et al., Automated reconstruction of a serial-section EM Drosophila brain with flood-filling networks and local realignment, bioRxiv, 2019

[5] C. S. Xu, M. Januszewski, Z. Lu, S.-y. Takemura, K. J. Hayworth, G. Huang, et al., A Connectome of the Adult Drosophila Central Brain, bioRxiv, 2020

繼續閱讀