天天看點

ChatGPT 是一個黑匣子:人工智能研究如何打破它

作者:ScienceAI
ChatGPT 是一個黑匣子:人工智能研究如何打破它

編譯 | 白菜葉

「我建議考慮這個問題,『機器能思考嗎?』」 英國計算和數學傑出人物艾倫·圖靈 (A. M. Turing Mind LIX, 433–460; 1950) 于 1950 年發表了一篇開創性論文。

但作為定義思考含義這一棘手任務的替代方案,圖靈提出了一個他稱之為「模仿遊戲」的場景。一個被稱為詢問者的人與其他人和計算機進行基于文本的對話。圖靈想知道詢問器是否能夠可靠地檢測到計算機,并暗示如果不能,那麼可以認為計算機正在思考。該遊戲激發了公衆的想象力,并被稱為圖靈測試。

盡管這個想法經久不衰,但該測試在很大程度上被認為過于模糊——而且過于關注欺騙,而不是真正的智能行為——無法成為人工智能(AI)的嚴肅研究工具或目标。但語言在評估和創造智力方面可以發揮什麼作用的問題在今天比以往任何時候都更加重要。這要歸功于被稱為大語言模型(LLM)的人工智能系統能力的爆炸式增長,它們是 OpenAI 的 ChatGPT、微軟的 Bing Chat 和谷歌的 Bard 等衆多聊天機器人背後的技術。正如「大語言模型」這個名字所暗示的那樣,這些工具純粹基于語言。

具有一種怪異的人性,有時令人愉快的對話技巧,以及一系列其他能力,包括論文和詩歌寫作、編碼、通過嚴格的考試和文本摘要——這些機器人引發了人們對人工智能及其崛起對人類意味着什麼的興奮和恐懼。但在這些令人印象深刻的成就背後隐藏着一個緊迫的問題:LLM 如何運作?與其他神經網絡一樣,LLM 的許多行為都是從訓練過程中産生的,而不是由程式員指定的。是以,在許多情況下,LLM 的行為方式的确切原因以及支撐其行為的機制并不為人所知——甚至對于他們自己的創造者來說也是如此。

正如《Nature》雜志在專題中報道的那樣,科學家們正在将 LLM 的真正能力和驅動它們的潛在機制拼湊在一起。加利福尼亞州斯坦福大學的認知科學家 Michael Frank 将這項任務描述為類似于調查「外星智能」。

正如研究人員所指出的那樣,揭示這一點既緊迫又重要。為了使 LLM 能夠解決醫學和法律等領域的問題并提高生産力,人們需要更好地了解這些工具的成功和失敗。這将需要新的測試來提供比現有測試更系統的評估。

ChatGPT 是一個黑匣子:人工智能研究如何打破它

論文連結:https://arxiv.org/abs/2303.12712

輕松通過考試

LLM 會吸收大量文本,并用這些文本來學習預測句子或對話中的下一個單詞。這些模型通過反複試驗來調整其輸出,并且可以通過研究人員的回報進一步完善這些輸出。這個看似簡單的過程可以産生強大的結果。與以前專門執行一項任務或具有一項功能的人工智能系統不同,LLM 可以輕松完成考試和問題,其範圍之廣對于幾年前的單個系統來說似乎是不可想象的。

但随着研究人員越來越多地記錄,LLM 的能力可能很脆弱。盡管 GPT-4 是 ChatGPT 背後最先進的 LLM 版本,在一些學術和專業考試問題上取得了不錯的成績,但即使問題措辭方式的微小幹擾也可能導緻模型失效。穩健性的缺乏表明它在現實世界中應用缺乏可靠性。

鑒于這種好壞參半的表現,科學家們現在正在争論 LLM 背後到底發生了什麼。一方面,當模型在某些測試中取得成功時,研究人員會看到推理和了解的曙光。另一方面,有些人認為自己的不可靠性表明該模型并不像看起來那麼聰明。

人工智能審批

對 LLM 能力進行更系統的測試将有助于解決争論。這些将使人們更深入地了解模型的優點和缺點。與藥物獲得治療準許和發現可能的副作用所經曆的過程類似,對人工智能系統的評估可以讓它們被認為對某些應用是安全的,并可以實作它們可能無法向使用者聲明的方式。

今年 5 月,由新墨西哥州聖菲研究所計算機科學家 Melanie Mitchell 上司的研究小組報告了 ConceptARC 的建立:一系列視覺謎題,用于測試 AI 系統推理抽象概念的能力。至關重要的是,這些謎題通過 10 種方式測試每個概念,系統地測試系統是否真正掌握了 16 個基本概念(劇透警告:GPT-4 表現不佳)。但ConceptARC隻解決推理和泛化的一個方面;需要更多的測試。

ChatGPT 是一個黑匣子:人工智能研究如何打破它

論文連結:https://arxiv.org/abs/2305.07141

然而,對藥物的信心不僅僅來自于臨床試驗中觀察到的安全性和有效性。了解導緻其行為的機制也很重要,這使得研究人員能夠預測它在不同情況下如何發揮作用。出于類似的原因,解開 LLM 行為的機制(可以被認為是模型的潛在「神經科學」)也是必要的。

研究人員想要了解 LLM 的内部運作方式,但他們還有很長的路要走。另一個障礙是建立 LLM 的公司缺乏透明度——例如,在透露哪些資料模型是基于哪些資料模型進行訓練的。然而,監管機構對人工智能公司的審查正在加強,未來可能會迫使更多此類資料被披露。

在圖靈首次提出模仿遊戲七十三年後,很難想象人工智能領域面臨的挑戰比了解 LLM 的優勢和劣勢以及驅動它們的機制更重要。

相關報道:https://www.nature.com/articles/d41586-023-02366-2

繼續閱讀