天天看點

陳保亞 陳樾:人類語言習得的親知還原模式——從ChatGPT的言知還原模式說起

作者:古籍
陳保亞 陳樾:人類語言習得的親知還原模式——從ChatGPT的言知還原模式說起

摘要:盡管語言人工智能的大語言模型ChatGPT取得了比較大的進展,哲學上的圖靈和塞爾之争仍然在繼續。不過ChatGPT能夠生成符合文法的嶄新的句子,一定還原出了語言機關(tokens)和規則,解決了長期以來人工智能中自然語言了解的難題,這是一個重要的轉折。ChatGPT的學習模型依賴強大的運算能力和計算機的海量存儲能力,這兩種能力可以合稱為強儲算能力。相比之下,人腦隻具有弱儲算能力。正是因為弱儲算能力的限制,人腦語言學習不可能完全走ChatGPT的語言學習模式。人腦是在基于經驗的親知活動中還原出有限的機關和規則,進而生成嶄新的句子。ChatGPT目前采用的是言知學習模式,而不是基于經驗的親知學習模式,将來的大語言模型可能擴充出親知學習模式,真正模拟人類獲得親知還原模式。那個時候或許可以說機器人真正了解了自然語言,哲學上的圖靈和塞爾之争或許可能得到解決。

一、緣起:圖靈和塞爾之争ChatGPT在自然語言了解方面的強大功能引起了人們廣泛關注。其中一個引起人們關注的重要問題是ChatGPT是否能夠像人一樣思維。圖靈(Turing)在《計算機器與智能》中提出了模仿遊戲(imitation game),後人稱為“圖靈測試(Turing test)”。基本思想是,在測試者C、被試機器A和被試人B都互相隔絕的狀态下,測試者C提出各種問題,被試機器A和被試人B回答問題,測試者C如果不能區分A和B誰是機器,圖靈就認為機器A能夠思維。圖靈測試本身還不夠明确,因為很多問題人不能回答,機器反而能夠回答。比如隻要提問6開平方是多少,能夠給出答案的應該是機器人,是以要區分人和機器其實是很容易的。不過圖靈的基本思想是清楚的,隻要機器能夠完成人能完成的大部分工作,機器就可以說能夠思維了。就一般問題而言,基于GPT-3.5的ChatGPT,基本上能夠完成圖靈測試,可以說已經符合圖靈所說的思維條件。這是否可以說ChatGPT能夠思維?20世紀80年代,塞爾在《心智、大腦和程式》中針對圖靈測試提出了中國房間(Chinese room)的問題。概括地說,假設把圖靈測試中的機器人換成一個不懂中文的英語人,隻要借助英語寫的關于漢語的手冊等工具,該英語人就可以根據漢語句子的提問用漢語句子回答。但這并不等于機器懂漢語,也并不能證明機器懂漢語。塞爾的中國房間被稱為思想實驗。在中國房間實驗中,英語人并不懂漢語,不了解漢語,卻可以輸出漢語句子。塞爾想表達的觀點是,機器能輸出句子并不等于機器了解了句子。塞爾的思想實驗中英語人是了解英語的,漢語句子的輸出有語言人在操作,盡管不是漢語人。現在的問題是,ChatGPT完成漢語和英語翻譯,生成新的句子和文本,并不需要語言人的操作,這算不算ChatGPT能了解語言?二、ChatGPT語言學方法:基于言知的分布理論ChatGPT目前還有很多能力無法和人相比,比如數學證明能力。ChatGPT的有些對話文本可能讓人感到莫名其妙。但可以肯定的是,ChatGPT說出的每個新句子都是符合文法規則和語義規則的,它不會說出“見面老師”這樣的違反文法的表述,也不會說出“喝牛排”這樣的違反論元語義規則的表述。這一點證明了ChatGPT肯定還原出了語言機關和規則,否則ChatGPT無法生成符合文法語義規則的嶄新句子。這不能不說是自然語言處理上的重要轉折,在此之前,讓機器像人一樣說出正确的句子,一直是計算語言學的難點問題。ChatGPT是一種大語言模型(large language model),有兩個重要的基礎,一個是人工神經網絡(artificial neural networks)數學模型,一個是大資料。人工神經網絡又簡稱神經網絡,其基本原理就是模仿人類大腦神經網絡進行非線性回歸計算,自動建立預測模型。這種神經網絡有很多層次,這些層次隐藏很深,是以其自動模組化的過程也稱為深度學習(deep learning)。ChatGPT的神經網絡由數十個網絡層構成,每個層都是一個轉換器(transformer)。轉換器至關重要,是瓦斯瓦尼(Vaswani)等在人工智能奠基性論文《關注就是你所需要的》(Attention is all you need)中提出來的,有效解決了自然語言特征的提取技術。ChatGPT中的T,就是transformer第一個字母的縮寫。和此前機器人比較起來,人工神經網絡模仿人的大腦機制,更貼近人腦的語言學習模式。瓦斯瓦尼等論文中的“關注”(Attention)就是用數學方式描寫一個詞和另一個詞的密切關系。ChatGPT還包括了RLHF(Reinforcement Learning Human Feedback),即人類回報強化學習,這樣可以不斷調整自己,更接近人類的行為模式。基于人工神經網絡,ChatGPT能夠自己讀取網絡上包括維基百科等在内的海量文本,從中模拟出語言生成模型。ChatGPT在數學計算和資料存儲方面,遠遠超過了真人的大腦,正是因為有這兩個超強的能力,自然語言中的詞語可以真正被自動标注,實作高維向量化,形成複雜網絡關聯,人工神經網絡可以進行大規模運算得到最佳輸出。2013年Google公布的Word2vec模型,主要就是在講詞的向量化。該模型的詞向量已達600多個,即每個詞都由600多個參數構成,每個參數都表達了一種詞和其他詞的相似關系。該模型可看成大語言模型的範式。通俗地看,詞的向量化有些像語言學和計算語言學中的特征标注,比如“哥哥”和“姐姐”都可以标注“同輩親屬、年長”的特征,即兩個向量,“哥哥”和“姐姐”于是有了相關性,在符合“同輩親屬、年長”的語境下,這些詞就可能共現。所不同的是,語言學和計算語言學中的特征标注是人工的,“同輩親屬、年長”隻是兩個特征,自然語言中和語言組合規則相關的語言特征遠遠不止兩個,詞與詞之間的聚合關系群組合關系也不是僅僅靠少量特征就可以描述。要進行大量的特征标注,難度就會劇增。而且标注詞的哪些特征才能反映句子生成規則,人工标注并不是很清楚,必須不斷手工調試,每次調試都是巨大的工作量。基于Chat-3.5的ChatGPT是自動識别、自動調試、自動回報和自動輸出的最佳模拟裝置,解決了海量計算難題。比如,瓦斯瓦尼等提出Transformer的論文裡,反映詞項分布特征數量的向量次元已經高達512,到GPT-3,向量次元已經達到12288,神經網絡有96層。所包含的資訊已經相當大。GPT-4盡管沒有公布向量次元,但肯定不弱于GPT-3。更重要的是,ChatGPT向量化的大規模擴充、儲存和運算,仍然是通過神經網絡自動實作的,這就為機器在海量文本中自動建立詞的特征标注或向量化提供了可能。也正是通過詞的向量化,ChatGPT可以進一步擷取詞的分布機率,建立詞的組合模型,完成生成新句子的工作。盡管ChatGPT的人機對話在内容上還存在不足,但從語言理論的角度看,ChatGPT能生成嶄新的符合文法的句子和文本,這在自然語言了解上是一個非常值得重視的進展,是以可以肯定,ChatGPT能在現存的文本語料中還原出機關和規則,生成嶄新的句子。如果ChatGPT隻是憑借能處理海量資料的能力死記硬背語言句子,不可能生成嶄新的句子和文本。由于人工神經網絡内部是一個黑箱,ChatGPT是如何自動建立向量空間,如何建立語言生成模型的,人們并不清楚。但有一點很明确,ChatGPT并不跟經驗打交道,而是直接面對海量文本。海量文本可以提供每個詞足夠詳細的分布資訊,ChatGPT可以而且隻能依靠詞的分布通過人工神經網絡還原機關和規則,建立語言生成模型。從數學方法看,人工神經網絡本質上就是一種非線性回歸的算法,隻要輸入材料足夠的豐富,這種算法便能夠模拟出材料背後的規律,形成自動模組化。ChatGPT把詞的分布轉化成數學中的向量,借助海量的語言文本,最終模拟出語言規則,并用這些規則生成符合文法的嶄新句子和文本。人工神經網絡的方法原則從源頭上看就是數學中勒讓德(Legendre)和高斯(Gauss)的回歸理論,隻不過勒讓德和高斯的回歸是線性回歸,後來數學家發展出了非線性回歸,但基本原則是相同的,即如何從複雜的要素分布中模拟出數學模型,然後預測未知的要素分布。這是一種分布理論。從語言理論的角度看,ChatGPT的語言學方法也是分布理論,這種思路正是海裡斯(Harris)分布理論的思路。更早的時候,布龍菲爾德(Bloomfield)的語言行為主義理論,也是把詞的意義看成詞的用法(分布)。海裡斯認為,隻要充分描寫每個語素(morpheme)的分布規則,就可以得到該語言的規則。由于語言中語素的分布異常複雜,幾乎每個語素都有自己不同的分布,是以海裡斯當時不可能充分描寫一個語言全部語素的詳細分布,而隻能以舉例的方式概括出分布理論。語言學家也難以靠手工窮盡語素的分布。ChatGPT使這種大規模分布運算成為可能,無論是語素,由語素構成的詞,還是其他語言機關(tokens),大規模運算都是可能的。海裡斯的分布理論是一種獨立于經驗的純形式分析。既然ChatGPT能夠獨立于經驗獲得分布規則,這也驗證了形式主義文法理論,即和語義相對的文法規則可以獨立于經驗,這正是海裡斯的學生喬姆斯基(Chomsky)的基本思想。自此我們可以形成一種關于符号系統的認識。自數學、邏輯學中公理化系統形成後,人們已經認識到數學是一種純形式公理系統,不需要語義解釋,通俗地說就是不需要經驗的支援,隻要公理互相無沖突即可,這樣數學從本質上是一種純形式符号系統的思想已經确定。至于數學和實際應用的關系,取決于實際的需求,比如歐氏空間需要歐氏幾何,相對論需要非歐幾何,等等。ChatGPT在語言生成上的成功是獨立于經驗的,這也證明自然語言中存在獨立于經驗的形式系統。至于這種形式系統如何應用,則需要和經驗聯系。ChatGPT所做的人工訓練和監督,屬于和人類價值觀、道德水準對齊(alignment),這部分就好比兒童學會了語言,仍然要對他們進行道德、價值觀和法律等教育。這些人工訓練和監督并不屬于語言能力的訓練。三、人類語言習得:親知還原能力回到圖靈和塞爾之争:ChatGPT是否能思維,是否了解了自然語言?回答這個問題取決于我們怎麼定義思維和語言,但有一點值得注意,盡管ChatGPT從海量文本中擷取了一種語言生成模型,但ChatGPT的自動學習方式和人類的語言學習方式并不相同。前面提到,人腦無論在存儲能力和運算能力上都遠遠不如ChatGPT,隻具備弱儲算能力。正是因為弱儲算能力的限制,人腦語言學習不可能完全走ChatGPT的語言學習模式。人腦同樣可以像ChatGPT一樣生成嶄新的句子和文本,不過人腦語言生成能力是從有限的并且較少的規則和機關生成嶄新的句子和文本。要完成從有限到無限,人腦需要在基于經驗的親知活動中還原出有限的機關和規則,進而生成嶄新的句子和文本。人腦還原機關和規則所用到的文本數量和ChatGPT所用到的文本數量要遠遠小得多。基于親知還原出來的機關和規則是根植于經驗的親知語言。相比之下,ChatGPT目前采用的是言知學習模式,而不是基于經驗的親知學習模式。ChatGPT通過多元度向量進行大規模計算,也能從浩瀚的語料中總結出關于外部世界的很多資訊,但這些資訊是靠言知而不是親知獲得的。從儲算能力看,ChatGPT可以還原出形式機關(tokens),但能否還原出基于經驗的有意義的機關還不得而知。将來ChatGPT可能擴充出親知學習模式,比如在嗅覺、觸覺、痛感、憂傷感、愉快感以及通感等方面取得進展,進而模拟人類獲得最佳還原模型,那個時候或許可以說機器人真正有了思維,真正了解了語言。為什麼ChatGPT需要超大資料的學習才能學會怎樣生成嶄新的句子,而人類隻用了有限的資料就能學會了解和生成嶄新的句子?三歲小孩基本上已經掌握了母語,他們所接觸到的句子數量是相當有限的。顯然,由于人類的弱儲算能力,人類隻能在一定數量的句子中(包括獨詞句)還原規則和機關,再依據這些有限的機關和有限的規則,生成嶄新的句子。具體地說,兒童通過生活遊戲獲得一些詞和句子的用法,這隻是言語習得的第一步,第二步是機關和規則的還原過程。還原過程是類推。比如兒童可以學會以下詞組:布鞋、草鞋、皮鞋金表、銅表、銀表兒童會以類推的方式還原出這裡的機關,并生成新的組合:金鞋、銅鞋、銀鞋這裡的類推結果是建立起一個基于共相的模型“X鞋”,其中X表示質料。類推的本質是用已經有的知識言說新的知識。這裡的知識是和經驗世界相關的,即“質料”知識的形成是人類在和經驗世界打交道時形成的親知。如果沒有基于經驗的類推,自然語言的還原過程和生成過程都不能實作。概括地說,人類知識不僅有言知,而且還有親知,并且言知是建立在親知基礎上的。類推的核心在于是否能夠周遍類推。有些類推是不周遍的,有些類推是周遍的:平行周遍模式:白紙、白牆、白鞋、白毛、白車……#白菜、#白金、#白鐵……$白煤……平行不周遍模式:腕兒、腿兒、桌兒、門兒、本兒、嘴兒、肝兒、腸兒、#心兒,#眼兒……*筆兒、*墨兒、*腳兒、*手兒、*掌兒、*指兒、*鼻兒、*牙兒、*胃兒、*腎兒……平行周遍模式中遇到的反例通常是可解釋的。一種是轉義,比如上面标記有符号#的“白菜、白金、白鐵”。另一種情況是經驗知識中還不存在的組合,比如上面标有符号$的“白煤”。除了這些反例,“白X”是可周遍類推的模式,這種模式可用來創新。嶄新句子的生成就是基于這種周遍類推。上面平行不周遍模式“X兒”是不作為規則來生成新執行個體的。比如“腿兒”和“腳兒”在組合關系上是平行的,“腿兒”可以說,“腳兒”卻不可以說。隻有平行不周遍模式的執行個體才需要記憶,平行周遍模式不需要記憶,這就是還原學習的充分性。這兩種模式的執行個體計算機可以完全入庫,不需要還原出更小的機關,因為計算機有足夠的強儲算能力。這是計算機自然語言處理不同于人腦處理語言的重要差別。ChatGPT能否像人腦一樣進行語言和規則的還原?目前看來是有困難的。人腦能夠進行充分的規則和機關的還原,依賴了親知,這可能是人類能夠在弱儲算能力下也能充分還原機關和規則的關鍵。ChatGPT等所依賴的人工神經網絡目前還不具有親知,隻有言知。比如百度推出的大語言模型文心一言,和ChatGPT一樣以人工神經網絡為基礎,其定義“質料”用到了“物質”,定義“物質”用到了“實體”,定義“實體”用到了“實物”,定義“實物”用到了“物體”,定義“物體”用到了“實體”,最終形成循環解釋。這些詞之是以用來互相定義,是因為人工神經網絡在大規模的句子中發現“質料、物質、實體、實物、物體”等詞經常出現在句子的相同位置,是以被置于相同的向量空間中,具有相似性。相似性就可以提取相似特征。根據詞的分布提取詞的相似性,這就是大語言模型的基本工作原理。而日常生活中的人對“質料”的了解,對“物質、實體、實物、物體”的了解,是通過觸覺、視覺等在經驗中獲得的感覺結果。類比地說,計算機可以通過“芒果”“香蕉”“鳳梨蜜”“榴蓮”等詞在大資料中的分布,自動建立起“芒果”“香蕉”“鳳梨蜜”“榴蓮”的相似關系,提取“水果”的特征,但仍然不知道這些水果真正的味道是什麼。用言知的方式還原詞的意義必然陷入循環,比如“知道”,《現代漢語詞典》(第7版)的解釋是循環的:知道:對于事物和道理有認識;懂得(p1678)懂得:知道(意義、做法等)(P312)認識:1.能夠确定某一人或事物是這個人或事物而不是别的。2.通過實踐了解、掌握客觀事物(P1102)了解:知道得清楚(P820)以上“知道、懂得、認識、了解”都是在循環定義,循環解釋。顯然,人類不是通過定義、解釋這樣一些言知學習模式而獲得“知道”的意義,而是通過親知過程中的語言使用。使用先于定義,親知先于言知。自然語言是最初始的基于親知的元語言,給詞下定義最終是一個循環過程。在命題邏輯中有如下定義:¬(否定符号,¬p表示“非p”),這是用自然語言“否、非”定義符号¬。但自然語言“否”“非”和“不”在《現代漢語詞典》又是循環定義:

否:表示不同意非:不、不是、不合于不:用在動詞、形容詞和其他副詞前面表示否定邏輯學中最重要的判斷詞,《現代漢語詞典》中的定義也是循環的:是:對,正确對:相合,正确,正常正确:符合事實符合:相合人類自然語言以及在自然語言基礎上建立起來的符号系統,從語言層階的角度看都存在着循環解釋。維特根斯坦說:“我如果不能給‘植物’下個定義我就不知道自己在說什麼嗎?”這也是承認使用先于定義,親知先于言知。我們再回到圖靈和塞爾關于“思維(thinking)”和“了解(understanding)”這個問題上來,其實圖靈的功能派和塞爾的解釋派都沒有對“思維、了解”做嚴格定義,我們需要嚴格區分兩種“思維、了解”。圖靈以及人工智能所說的機器人能夠思維,能夠了解語言,這種思維和了解是指詞與詞之間的網絡關系,塞爾所說的思維和了解,是指基于經驗的思維,是指對詞語背後經驗世界的了解。我們可以把人類通過親知學會的語言稱為親知語言,而把機器人通過言知學會的語言稱為言知語言。自然語言是通過初始詞項及其不斷擴充而獲得的符号系統,這種擴充既包括隐喻用法或類比用法,也包括定義和解釋,但初始語言系統本身不可能通過定義和解釋獲得,隻能通過親知獲得。機器人将來能否實作親知的學習模式,獲得親知語言,是自然語言了解的關鍵。目前機器人對真人的圖像識别和聲音的識别,是一種親知的開始。但至少在目前情況下,要達到人類親知世界的程度還是有相當難度的,因為電腦和人腦的構造并不一樣。人腦是一種有機構造,後面有複雜的生物結構,還連帶着身體各部分的複雜生物結構,人類正是通過這些複雜的生物結構和經驗世界打交道而擷取親知語言。人的複雜生物結構是在長期的進化過程中逐漸形成的,具有複雜的感覺世界的親知系統,這是目前的機器人還不具備的。ChatGPT的飛躍的一個關鍵是大資料計算,這些大資料來自于研究機構收集的資料、網上的資料等,包括網上維基百科的資料等。網上的資料是良莠不齊的,必然影響GPT的品質。微軟的研究人員古納塞克拉(Gunasekar)等在微軟預印本伺服器arXix上發表了文章《文本是你所需要的全部》(Text books Are All You Need),強調要提高資料品質。在2023年1月公布的phi-1模型中,提高資料品質後模型的性能明顯提高。GPT5也将遵循提高資料品質的思路,但是,文本品質再高,也是基于言知的資料,模型終究還是基于言知的模型,和人類語言學習方式不一樣。一種可能性的發展趨勢是實體機器人向生物機器人發展,機器人逐漸發展出親知能力。現在的計算機對外部世界的音像識别可以看成是親知能力的先兆。四、結語:語言行為與語言認識基于大語言模型的機器人可以在沒有親知的情況下,根據已有文本能夠獲得句子生成能力,生成嶄新的句子,并在這種言知語言能力的基礎上完成大量資訊處理、推理工作和創作活動。是以,我們關于語言能力、語言知識和思維能力的理論需要調整。至于圖靈和塞爾關于機器是否有思維和了解能力,取決于我們如何定義“思維”和“了解”。喬姆斯基認為ChatGPT并沒有告訴我們任何語言知識,如何了解這一點,則取決于如何定義“語言知識”。繞開這些争論,有一個基本問題是清楚的,ChatGPT的言知儲算模型必須要依靠強儲算能力才能還原語言機關和規則。人類學習語言,不可能用ChatGPT的方法。親知儲算模型隻需要弱儲算能力即可還原語言機關和規則,這是人類學習語言的特點,這背後真正的機制語言學家、人工智能專家都還沒有研究清楚。也許正是這種親知儲算模型,使得人類具有另一些能力,其中最重要的就是數學證明能力和在懷疑、反思、領悟的基礎上建構相對論這樣一類理論的能力。這是人工神經網絡目前還未實作的,今後是否能實作需要進一步研究。即使将來機器人通過深度學習發展出了親知能力和親知語言,也并不能代表人類對語言機制有了充分的認識,這隻是語言行為的實作。ChatGPT湧現出的一些高度複雜的行為模式,人工智能專家目前也不能完全認識這些行為的機制。認識人類語言的運轉機制永遠是語言科學研究的目标,這種認識可能對推進機器人學會親知語言提供理論支援,也為我們限制機器人産生破壞行為提供了借鑒。一旦機器人能夠完全像人類那樣以親知還原的方式學習語言,加上機器人自己的強儲算能力,機器人的語言能力和思維能力是驚人的。而機器人學習語言的過程,也為人類認識語言運轉機制提供了更多的視窗。比如,ChatGPT學習語言并沒有使用大量的文法術語和跟文法體系相關的概念,都提示我們文法研究更應該重視共時規則和曆時規則的研究,重視語言運轉機制的研究,而不是一味建構抽象複雜的文法體系。語言學不僅要研究人類學習語言的機制,還需要研究機器人學習語言的機制。我們現在的語言學,是基于人類學習語言的語言學,機器人學習語言的機制也應該納入研究,是以我們需要有一種基于既研究人類語言,也研究機器人語言的廣義語言學,這樣我們關于語言學習的機制才更充分。ChatGPT還存在很多不足,但它在多方面的成功是不容忽視的,這些成功顯示了人工神經網絡在自然語言了解中的重要性。自然語言了解早期經曆了規則模型和機率模型,都遇到了很多困難。規則模型的困難不在于規則本身不重要,而在于人工尋找和建立規則的困難。這裡的教訓是,會說語言的人不是很容易找出語言背後規則的,就像會消化的人并不容易找到消化的規律。其實ChatGPT也是在尋找規則,不過是在大運算和大資料中尋找規則,這從一個側面反映了尋找規則的難度。機率模型也是很重要的,人工神經網絡的計算就是基于機率模型,隻是早期的機率模型也遇到了對海量文本進行大規模運算的困難。規則模型和機率模型都是有價值的模型,問題是怎麼去自動實作,人工神經網絡做了自動實作的工作。古人類學家、考古學家、古遺傳學家等都認為符号系統的産生是人類進化的一個重要特征,但并不認為是一個最為關鍵的特征,并沒有拿符号來作為一個差別性特征,這令人遺憾。現有的實驗顯示,動物在很多方面都具有超過人類的能力,比如海豚用聲波定位的能力,黑猩猩的記憶能力等等,但是這些動物都未能發展出高度發達的人類社會。我們認為人類進化的一個根本轉折是掌握了語言。有了語言這樣一種符号系統,經驗才可能有序化,人類才可能做出未來計劃,才可能分享創新,才可能積累知識。人類進化最為關鍵的環節是符号系統的産生,即能産符号系統的産生。自然語言就是一種符号系統。卡西爾曾經把人定義為符号動物,現在看來是有道理的。OpenAI高度關注人工智能中的自然語言了解,其大語言模型ChatGPT在人工智能中實作了自然語言的生成,這是一個重要的轉折。ChatGPT的出現對機器人發展的重要性猶如自然語言符号系統的出現對人類發展的重要性,從此機器人可以和人類進行自然語言對話,直接閱讀、繼承和使用人類用自然語言記錄的浩瀚文本知識。語言是思維和交際的最重要的工具,想繞開語言來實作人工智能,就好比繞開語言來談人類起源,是方向性的錯誤。可以說,語言人的出現是人類進化的轉折點,語言機器人的出現是機器人曆史的轉折點,這一轉折引導我們開始思考更多的語言理論問題。本文載于《北京大學學報(哲學社會科學版)》2024 年第2期,引用 / 轉發等請據原文并注明出處。

繼續閱讀