天天看點

ChatGPT的底層邏輯

作者:人人都是産品經理
自從ChatGPT釋出之後,其他技術原理和邏輯就成了很多人的分析對象。也有不少作者寫文章講述過其底層邏輯,每個人的角度和看法都不一緻。這篇文章,作者從AI曆史出發,結合之前大家對ChatGPT邏輯的判斷,給出了自己的看法,希望對你有所幫助。
ChatGPT的底層邏輯

“一些未知的東西正在做我們不知道的事情。”

——阿瑟·愛丁頓‍‍

“為何不嘗試制作一個模拟兒童思維的程式呢?”‍

——艾倫·圖靈

“隻要是人腦能提出的問題,它就能夠得到解決。”‍

——庫爾特·哥德爾

開始

傳說中的掃地僧,在現實中極其罕見。

有些僧,隻是在假裝掃地;而絕大多數“掃地僧”,并非真正的高僧。

電影《心靈捕手》講述了這樣一個少年天才,清潔工“呆萌”在大學拖地闆時,解出了麻省理工學院數學系教授給出的難題,他的天賦震驚了這位菲爾茨獎(數學界的“諾貝爾獎”)得主。

ChatGPT的底層邏輯

誰是電影中貧苦而不羁的天才主角的原型?

人們也許會想起沃爾特·皮茨,一位在計算神經科學領域工作的邏輯學家。

他提出了神經活動和生成過程的具有裡程碑意義的理論表述,這些表述影響了認知科學和心理學、哲學、神經科學、計算機科學、人工神經網絡和人工智能等不同領域,以及所謂的生成科學。

某種意義上,正是ChatGPT的源頭所在。

上世紀三十年代,皮茨在芝加哥大學掃地時,大約是15歲。這是他人生當中重要的轉折點,也幾乎決定了當今最火熱的神經網絡的起點。

皮茨出身于一個窮苦家庭,和《心靈捕手》的主角一樣,打架之餘靠在公共圖書館裡借書自學,他喜歡邏輯和數學,還掌握了希臘語、拉丁語等多門語言。住在貧民區的他,12歲時花三天時間讀了羅素的《數學原理》,并寫信給作者指出其中的錯誤。惜才如命的羅素立即邀請皮茨去劍橋大學當研究所學生,未果。

15歲國中畢業時,父親強行要他退學上班養家,皮茨離家出走了。無處可去的皮茨得知羅素要到芝加哥大學任教,隻身前往,果真撞見了曠世大師。羅素愛才之心不減,将他推薦給哲學家卡爾納普教授。聽聞皮茨是少年天才,卡爾納普把自己的《語言的邏輯句法》一書給皮茨看。皮茨很快看完,并将寫滿筆記的原書還給作者。這位著名的分析哲學家深感震撼,為國中畢業生皮茨安排了一份在芝加哥大學打掃衛生的工作。

電影裡那令觀衆動容的一幕在現實世界出現了。掃地的工作不僅可以令皮茨不可不用流浪街頭,還讓他能跟随大師們自由地探索真知。

命運在此刻埋下的最大注腳,是讓這個可憐而又幸運的孩子,在兩年之後遇見此生對他而言最重要的一個人。

1940年,17歲的皮茨與42歲的麥卡洛克教授相逢,從此兩人一起改變了世界。

與人生混亂不堪的皮茨截然不同,麥卡洛克先後就讀于哈佛、耶魯和哥倫比亞大學,拿了一串眼花缭亂的學士、碩士和博士學位。麥卡洛克也不像《心理捕手》的那位落寞的心理學教授,他出生優越,家庭幸福,事業蒸蒸日上,過着主流而正統的生活,學術上已經受到廣泛贊譽。

可是,兩個仿佛來自不同時空的人,在思想的最深處走到了一起。

1943年,麥卡洛克和皮茨發表了題為《A Logical Calculus of the Ideas Immanent in Nervous Activity》的論文,首次提出神經元的M-P模型。

該模型借鑒了已知的神經細胞生物過程原理,是第一個神經元數學模型,是人類曆史上第一次對大腦工作原理描述的嘗試。

ChatGPT的底層邏輯

M-P模型

M-P神經元是一個理想化的簡單模型,基于生物神經元的基礎特性進行模組化。

其工作原理如下:

神經元接收一組二進制輸入,每個輸入都與一個權重相對應;

當權重輸入之和超過某個門檻值時,神經元被激活并輸出1,否則輸出0。

這種機制很好地模拟了生物神經元的”全部或無”的響應模式。

M-P模型的影響力在于它是一個很好的開始,為後來複雜的神經網絡模型鋪平了道路。然而,M-P模型也有很大的局限性,比如它無法學習和調整自己的權重,以及隻能處理二進制輸入和輸出。

這個模型是人工神經網絡和深度學習發展的基石。

現代的神經網絡模型比McCulloch-Pitts模型複雜得多,但是它們的基本原理——根據輸入計算輸出,并且有可能調整自身以優化這個過程——仍然是相同的。

麥卡洛克和皮茨的論文不僅是人工智能曆史上的一個重要裡程碑,為了解大腦工作機制和發展人工智能打下了基礎,還啟發了人們:生物大腦“有可能”是通過實體的、全機械化的邏輯運算來完成資訊處理的,而無需太多弗洛伊德式的神秘解釋。

麥卡洛克後來在一篇哲學文章裡自豪地宣告:“我們知道了我們是怎麼知道的,這是科學史上的第一次。”

(本節部分參考了《人工智能簡史》和《智慧的疆界》)

麥卡洛克和皮茨發表那篇裡程碑式論文的同一年,艾倫·圖靈正在布萊切利公園破譯德國恩尼格瑪密碼機。他和團隊用智慧拯救了數十萬的生命,對盟軍在二戰中的勝利起到了關鍵作用。

他們的交集同樣與羅素有關。

在20世紀初,數學家和邏輯學家都在試圖找到一種能夠将所有的數學真理減少到一套簡單的公理和邏輯規則的系統。

這就是著名的希爾伯特計劃,由德國數學家大衛·希爾伯特提出。羅素及其合作者懷特海在《數學原理》一書中就做了這樣的嘗試,他們試圖将數學基礎建立在形式邏輯的基礎之上。然而,希爾伯特計劃在1931年遭到了挫敗,因為哥德爾證明了他的不完備性定理。

這個定理表明:任何足夠強大的形式系統,都存在一些在該系統内部既不能被證明也不能被反駁的命題。

ChatGPT的底層邏輯

1936年,圖靈在一篇論文裡研究了希爾伯特的“計算性”和“判定性問題”。

為了解決這個問題,圖靈首先定義了“計算”這個概念,并建立了圖靈機,這是一種理論上的計算裝置。然後,他通過構造了一個圖靈機無法解決的問題(即停機問題)來證明判定問題實際上是無法解決的。

這意味着沒有一個通用的算法能對任何可能的問題都給出答案。

一個意外收獲是:圖靈創立了一個新的研究領域——計算理論(或可計算性)。圖靈機給出了一個對“計算”或“算法”進行形式化的方式,這不僅在他的原始問題中有用,而且對整個計算機科學的發展産生了深遠影響。

實際上,現代所有的電子計算機都是基于圖靈機模型的,這使得圖靈機成為了計算理論的核心。

ChatGPT的底層邏輯

沒有證據表明麥卡洛克和皮茨看過圖靈的論文。他們兩個人的共同興趣是,應用萊布尼茨機械大腦的設想來建立一個大腦思維模型。

《數學原理》中僅使用了與、或、非三種基本邏輯運算,就将一個個簡單命題連接配接成越來越複雜的關系網絡,進而描述清楚了整個數學體系。(盡管并不完備)

ChatGPT的底層邏輯

麥卡洛克則構想:人類的思考,是否也是靠神經元來執行這些最基礎的邏輯運算而實作的?

皮茨在數學和邏輯上天賦,幫助麥卡洛克完成了這一偉大構想。

ChatGPT的底層邏輯

麥卡洛克和皮茨(左)

麥卡洛克和皮茨在1943年提出的神經元模型,構成了今天我們稱之為人工神經網絡的基礎。

他們的模型描繪了一種簡化的神經元,當其接受到的輸入超過一定門檻值時,就會被激活并向其它神經元發送信号。

這個模型的一個關鍵思想就是,即使每個單獨的神經元都很簡單,但是通過将它們聯接在一起,就能形成一個能處理非常複雜問題的網絡。

雖然單一的麥卡洛克-皮茨神經元隻能完成簡單的邏輯任務,但是,當将這些神經元組成一個複雜的網絡時,神經網絡就能進行複雜的計算,進而表現出圖靈完備性。

事實上,神經網絡是實作人工智能(AI)的重要方法之一。

通過設計不同的網絡結構,并使用大量的資料對網絡進行訓練,人工神經網絡可以學習到完成各種任務的能力,包括圖像識别、語音識别、自然語言處理等等。

AI的神經網絡,是對人類大腦和基于社會化網絡的人類群體智慧的模仿遊戲。

人類大腦神經元結構和工作原理如下:

ChatGPT的底層邏輯

圖檔來自《深度學習的數學》一書。

以上原理,用計算模拟和解釋,就是:神經元在信号之和超過門檻值時點火,不超過門檻值時不點火。

20世紀五六十年代,‍‍‍‍奧利弗·塞弗裡奇創造了名為“鬼域”的概念。這是一個圖案識别裝置,其中進行特征檢測的“惡魔”通過互相競争,來争取代表圖像中對象的權利。

“鬼域”是生動的關于深度學習的隐喻,如下圖:

ChatGPT的底層邏輯

圖檔來自《深度學習》一書。

上圖是對目前多層次深度學習網絡的隐喻:

  1. 從左到右,是從低到高的惡魔級别。
  2. 如果每個級别的惡魔與前一個級别的輸入相比對,就會興奮(點火)。‍
  3. 進階别的惡魔負責從下一級的輸入中提取更複雜的特征和抽象概念,進而做出決定。然後傳遞給自己的上級。
  4. 最終,由大惡魔做出最終決定。

《深度學習的數學》一書中,依照如上隐喻,用一個生動的例子,講解了神經網絡的工作原理。

問題:建立一個神經網絡,用來識别通過 4×3 像素的圖像讀取的手寫數字 0 和 1。

ChatGPT的底層邏輯

第一步:輸入層

12個格子,相當于每個格子住一個人,分别編号為1-12。如下圖。

ChatGPT的底層邏輯

第二步:隐藏層

這一層,負責特征提取。假設有如下三種主要特征,分為為模式A、B、C。如下圖。

ChatGPT的底層邏輯

不同的模式對應着相應的數字格子的組合。如下圖。模式A對應的是數字4和7,B對應5和8,C對應6和9。

ChatGPT的底層邏輯

第三步:輸出層

這一層,從隐藏層那裡獲得資訊。

ChatGPT的底層邏輯

如上圖,最下面是AI要識别的圖像。

首先,輸入層的2、5、8、11點火;

然後,隐藏層5和8所對應的特征被提取,“模式B”點火;

最後,輸出層的1被對應的“模式B”點火。

是以,“大惡魔”識别出圖像為數字1。

在上面的例子裡,AI可以精确地識别出0和1,但它并不懂0和1,它的眼裡隻有像素。

可這麼說,似乎過于拟人化了。人類又如何懂0和1呢?

人類不也是通過雙眼輸入,通過迄今仍是宇宙間最大謎團的大腦神經元網絡(更加複雜、強大且節能的隐藏層)提取特征,然後通過大腦的某個部位再進行自我解釋的嗎?

辛頓曾在采訪中提及,認知科學領域兩個學派關于“大腦處理視覺圖像”的不同理念:

一派認為,當大腦處理視覺圖像時,你擁有的是一組正在移動的像素。如同上面的示範;

另一學派偏向于老派的人工智能,認為是分層、結構性的描述,腦内處理的是符号結構。

辛頓自己則認為以上兩派都不對,“實際上大腦内部是多個神經活動的大向量。”而符号隻是存在于外部世界。

不管怎樣,神經網絡的模型有用,并且非常有用。

不願意和外行分享專業話題的辛頓,用如下這段話生動介紹了“神經網絡”:

首先是相對簡單的處理元素,也就是松散的神經元模型。然後神經元會連接配接起來,每一個連接配接都有其權值,這種權值通過學習可以改變。

神經元要做的事就是将連接配接的活動量與權值相乘,然後累加,再決定是否發送結果。如果得到的數字足夠大,就會發送一個結果。如果數字是負的,就不會發送任何資訊。

你要做的事就是将無數的活動與無數的權重聯系起來,然後搞清如何改變權重,那樣就行了。問題的關鍵就是如何改變權重。

ChatGPT的底層邏輯極其複雜,但如果要簡化為3個最核心的元素,ChatGPT-4認為它們可能是:

1、深度學習:ChatGPT的核心是一個基于 Transformer 的深度學習模型。

Transformer模型通過自注意力(Self-Attention)機制來捕獲輸入文本中的複雜模式。在訓練過程中,模型通過反向傳播和梯度下降等優化算法來學習這些模式,使得它能夠生成自然、連貫、與輸入相符的文本。

2、大資料:ChatGPT通過訓練海量的文本資料來學習語言模型。

資料集包含了各種語言模式和語境,使模型能夠在各種情況下生成合适的文本。大資料在這裡起到了決定性的作用。

3、強大的計算能力:為了處理這些大量的資料和複雜的深度學習模型,ChatGPT需要強大的計算能力。

這包括強大的硬體(如高性能的GPU),優秀的計算架構(如TensorFlow和PyTorch),以及高效的并行和分布式計算技術。

以上三個元素構成了ChatGPT的基礎,使得它能夠學習和生成自然語言。

但是,這隻是表面上的邏輯。實際上,每一個環節背後都有深厚的理論基礎,涵蓋了機器學習、自然語言處理、計算機科學、數學等多個學科的知識。

深度學習是一種強大的機器學習方法,其底層邏輯相當複雜。不過,如果嘗試将深度學習核心原理簡化為3個要素,ChatGPT-4認為可以這樣描述:

1、神經網絡架構:深度學習的核心是深度神經網絡,這是一種模拟人腦工作原理的計算模型。

神經網絡由多個互相連接配接的層組成,每一層都由大量的神經元(或稱為節點)組成。每個神經元都會接收前一層神經元的輸入,并進行一定的計算,然後将結果傳遞給下一層的神經元。

2、權重優化和學習:神經網絡的每個連接配接都有一個權重,代表這個連接配接的重要性。

深度學習的目标就是通過訓練資料來調整這些權重,使得網絡的輸出盡可能接近于真實的目标值。這個過程通常通過優化算法(如梯度下降)實作,算法會根據網絡輸出與目标值之間的差距(損失)來調整權重。

3、非線性激活函數:深度學習的另一個關鍵元素是非線性激活函數,如ReLU(Rectified Linear Unit)或Sigmoid等。

這些函數用于增加神經網絡的表達能力,使其可以學習和表示非線性的複雜模式。

這三個要素共同構成了深度學習的底層邏輯。

需要注意的是:這隻是一個粗略的概述,實際上深度學習涉及的理論和技術要遠比這複雜得多。

例如,還有正則化、卷積神經網絡、循環神經網絡、自注意力機制、批歸一化、優化算法、損失函數設計等等多種方法和技術,都是深度學習不可或缺的一部分。

以下是神經網絡發展的完整曆史(圖中并不完整),其中數度起伏。

ChatGPT的底層邏輯
  1. McCulloch-Pitts神經元模型(1943):Warren McCulloch 和 Walter Pitts 首次提出了神經元的McCulloch-Pitts(M-P)模型,借鑒了已知的神經細胞生物過程原理。
  2. 感覺器(1957):由Frank Rosenblatt提出的感覺器模型基于生物神經元的工作原理,是早期神經網絡的主要形式。
  3. Minsky和Papert(1969): Marvin Minsky和Seymour Papert指出了感覺器的局限性,即它們無法解決非線性可分問題(例如異或問題)。這部分導緻了第一次人工智能寒冬。
  4. 多層感覺器(1986):在Rumelhart,Hinton和Williams的研究下,多層感覺器(MLP)成為了神經網絡的主要形式。MLP引入了一個或多個隐藏層,并使用了反向傳播算法來訓練網絡。
  5. 卷積神經網絡和LeNet-5(1989/1998):Yann LeCun等人提出的卷積神經網絡(CNN)是一種專門處理網格狀資料(如圖像)的神經網絡。LeCun和他的團隊在1998年開發出了LeNet-5,這是第一個成功應用到實際問題(數字識别)的卷積神經網絡。
  6. 長短期記憶網絡(1997):由Hochreiter和Schmidhuber提出的長短期記憶網絡(LSTM)是一種專門處理序列資料的循環神經網絡。LSTM通過引入“門”結構,可以學習長期依賴關系,避免了傳統RNN在處理長序列時的梯度消失問題。
  7. 深度學習和深度置信網絡(DBN,2006):Hinton等人提出了深度置信網絡(DBN)和深度自編碼器(DAE),标志着深度學習時代的到來。深度學習利用多層神經網絡,能夠學習更複雜的模式和表示。
  8. ReLU激活函數(2010):Nair和Hinton提出了修正線性單元(ReLU)作為神經元的激活函數,這極大提高了深度神經網絡的訓練速度和性能。
  9. AlexNet(2012):Krizhevsky、Sutskever和Hinton的AlexNet模型大大超越了其它基于傳統機器學習技術的模型,引發了深度學習在計算機視覺領域的革命。
  10. word2vec(2013):Mikolov等人的word2vec是一種利用神經網絡為詞生成密集向量表示的方法。
  11. GoogLeNet and VGGNet(2014):Szegedy等人的GoogLeNet和Simonyan和Zisserman的VGGNet進一步提高了卷積神經網絡在圖像分類上的性能,并推動了卷積神經網絡的設計進一步向深度發展。
  12. ResNet(2015):He等人的ResNet通過引入跳躍連接配接,解決了深度神經網絡的梯度消失問題,使得網絡的深度能夠達到之前無法想象的程度。
  13. 自注意力和Transformer(2017):由Vaswani等人提出的Transformer模型引入了自注意力機制,這讓神經網絡可以在更大的範圍内建立依賴關系,為處理序列資料提供了新的架構。

顯然,我是用ChatGPT-4完成了這一節的内容。

人類的大腦可以自己思考自己,雖然謎團難解;

神經網絡也能回憶自己的曆史,盡管它無法為那些為此程序添磚加瓦的人類而感動。‍‍‍‍‍‍‍‍

Chris McCormick認為,神經網絡是純粹的數學。

從技術上講,“機器學習”模型在很大程度上基于統計資料。它們估計所有選項的機率,即使所有選項的正确機率都極低,它們仍然隻會選擇機率最高的路徑。

神經網絡的靈感來源于生物學,特别是人腦的工作原理,但其設計和操作基礎确實是數學,包括線性代數(用于資料和權重的表示和操作)、微積分(用于優化算法,如梯度下降)和機率論(用于了解和量化不确定性)。

神經網絡的每個部分都可以用數學表達式來描述,訓練過程則是通過優化數學目标函數(損失函數)來學習模型參數的過程。

黃仁勳說:“AI既是深度學習,也是一種解決難以指定的問題的算法。這也是一種開發軟體的新方法。想象你有一個任意次元的通用函數逼近器。”在黃仁勳的比喻中,“通用函數逼近器”确實是對深度神經網絡的一個精确且富有洞見的描述。這個比喻突出了深度神經網絡的核心特性:它們可以學習并逼近任意複雜的函數映射,隻要網絡足夠深,參數足夠多。這種“函數逼近”的能力使得深度學習能夠應對各種各樣的任務,從圖像分類和語音識别到自然語言了解和生成,甚至是更複雜的任務,如遊戲和決策制定。

隻要我們有足夠的資料來訓練這些模型,神經網絡就能學習到這些任務背後的複雜模式。–哪怕這些模式對人類而言隻是一個黑盒子。‍‍尤其在生成式模型(如ChatGPT)中,這種“函數逼近”的能力使得模型能夠生成富有創造性的輸出,如編寫文章、創作詩歌或音樂等。這些模型通過學習大量的資料,了解語言或音樂的規則,然後生成符合這些規則的新的創作。

ChatGPT到底在做什麼?為什麼它能夠成功?

大神Wolfram對此解釋道:令人驚奇的是,ChatGPT嘗試寫一篇文章時,基本上隻是一次又一次地詢問“在已有的文本基礎上,下一個單詞應該是什麼?” ,然後每次都添加一個單詞。(更準确地說是一個token)

那麼,是否每次都選取機率最大的那個單詞呢?‍‍‍‍‍‍

并非簡單如此。

Wolfram告訴了我們ChatGPT如何靠機率來“寫”出一篇文章:‍‍

  1. 每一步,ChatGPT都會生成一個帶有機率的單詞清單。
  2. 但若總是選擇最高“機率”的單詞,通常會得到一篇非常“平淡”的文章。
  3. 于是巫術出現了,有一個特定的所謂“溫度”參數,它控制了較低排名的單詞會被使用的頻率。
  4. 對于文章生成,我們發現“溫度”為0.8效果最好。

機率和随機性,再次顯示出神奇的魔力。

在微軟的報告裡,研究者用GPT-4模拟了一段對話:

蘇格拉底:我的朋友,我對最近這些所謂自回歸語言模型的興起感到不安。

亞裡士多德:你是什麼意思,蘇格拉底?

蘇格拉底:我的意思是,這些模型被用來生成看起來是人類寫的文本,但實際上是由機器産生的。

亞裡士多德:那有什麼問題呢?

蘇格拉底:問題是,這些模型被用來欺騙人們,操縱他們,控制他們。

亞裡士多德:但這些模式肯定也有一些積極的應用?

蘇格拉底:可能是這樣,但我仍然對濫用的可能性感到不安。畢竟,一個能夠生成與人類所寫的文字無法區分的模型可以被用來傳播假新聞,冒充他人,并制造宣傳。

亞裡士多德:但這不隻是一個如何使用這些模型的問題,而不是模型本身的問題嗎?

蘇格拉底:我不同意。我認為這些模型本身就有問題。它們是一種僞裝的形式,一種創造幻覺的方式,是人類思想和互動的一部分。是以,它們可以被用來以難以察覺的方式進行欺騙和操縱。

亞裡士多德:但這不正是你反對修辭和演說的理由嗎?

蘇格拉底:是的,我也堅持這個觀點。我相信,任何旨在欺騙或操縱的藝術或交流形式都是内在的危險。

亞裡士多德:我明白了。謝謝你分享你的想法,蘇格拉底。

喬布斯曾經設想過如上的對話,他預測有一天可以用計算機捕捉亞裡士多德的底層世界觀,如此一來人們就可以和他親自對話了。

反對修辭和演說的蘇格拉底認為:感覺是不可靠的,感性認識是不确定的,隻有理性才能夠認識事物本身。‍‍

而在亞裡士多德的方法裡,他将修辭确定為哲學的三個關鍵要素之一。另外兩個則是邏輯和辯證法。

亞裡士多德認為,邏輯關注的是用推理達到科學确定性,而辯證法和修辭則關注機率。後者适用于人類事務。

上面兩段文字我摘自網絡百科,雖無法确認其原文與出處(尤其是機率那部分),卻令人叫好。

然而,在随後的年代裡,亞裡士多德的邏輯和确定性知識體系更大程度地影響了人類。

人們信奉因果論和決定論,在牛頓的推動下,世界仿佛是一個由無數個精密齒輪構成的機器,在上帝的首次推動下,持續有條不紊地運轉着。

而另外一條線索亦在孕育之中。休谟的懷疑論和經驗主義徹底改變了人們的思想世界,他認為感性知覺是認識的唯一對象,人不可能超出知覺去解決知覺的來源問題。

在休谟看來,客觀因果并不存在。‍‍‍‍‍‍‍‍

随後康德試圖對理性主義和經驗主義進行調和,他否認客觀因果聯系,但主張用先天的理智範疇對雜亂的經驗進行整理。‍‍

馬赫則開創了經驗批判主義,他強調直接讨論觀測資料,科學定律隻是被視為以最經濟的方式對資料進行描述的手段而已。

《科學推斷》一書認為,他開啟了現代方法論的主要進展。

曾經深受馬赫影響的愛因斯坦,無法接受這種對科學信仰的破壞性,以及對法則、公式、定律的輕視,後來與其分道揚镳。

愛因斯坦用探索性的演繹法建構了邏輯嚴謹的原理,他相信宇宙有解,不相信鬼魅之力。

某種意義上,愛因斯坦是最後的牛頓(除了用斯賓諾莎的“神”替代了上帝),是科學因果決定論的捍衛者。‍‍

1967年,波普爾對如上交織而漫長的哲學曆程做了一個了結,他提出了三元世界的觀點,布爾金将其繪制如下:

這似乎是柏拉圖洞穴理論的現代版。

看看,人是多麼無知,又是多麼分裂啊!

基于這樣的結構,波普爾提出:我們無法證明這個世界,無法證明規律和定理,隻能去證僞。

也許你還記得上一代的老實人工智能–深藍。龐大的機器,手工制作無盡的代碼,多名參與其中的職業棋手,以及暴力算法,雖然打敗了卡斯帕羅夫,卻如流星般閃過。

《麻省理工科技評論》将深藍形容為恐龍,而這一代的神經網絡(尤其是深度學習)則是生存且改變地球的小哺乳動物。

上世紀50年代,香農曾經樂觀地預測AI将很快出現,事實并非如此。失敗的主要原因是:

人工智能的創造者們試圖用純粹的邏輯來處理日常生活中的混亂,他們會耐心地為人工智能需要做的每一個決定都制定一條規則。但是,由于現實世界過于模糊和微妙,無法以刻闆的方式進行管理。

我們無法像是依照牛頓的原理造車般,用發條思維和專家系統來打造智能系統。那一類AI不僅狹窄,而且脆弱。

ChatGPT是經驗主義的進化論的“勝利産物”。

經驗主義亦稱“經驗論”。作為一種認識論學說,與“理性主義”相對。經驗主義認為感性經驗是知識的來源,一切知識都通過經驗而獲得,并在經驗中得到驗證。

這正是ChatGPT的思考和學習路徑。

而虛拟進化又指數級放大了基于經驗的學習速度。在波普爾看來,科學發展本身就是一種進化。

ChatGPT不僅從時間的角度加速模拟了進化,還通過大模型從空間的角度拓展了可能性之廣度,以至于令人們禁不住又驚又喜地探讨起湧現。

那麼,人工智能是如何思考的?又是如何決策的?‍‍

有别于齒輪般的演繹推理,我們需要借助機率在證據和結論之間建立起聯系。‍‍‍‍

AI的任務是做決策,在不确定性下結合信念與願望,選擇動作。

《人工智能:現代方法》如此描述:

由于部分可觀測性、非确定性和對抗者的存在,真實世界中的智能體需要處理不确定性(uncertainty)。智能體可能永遠都無法确切地知道它現在所處的狀态,也無法知道一系列動作之後結束的位置。

此外,智能體的正确的動作——理性決策,既依賴各種目标的相對重要性,也依賴它們實作的可能性和程度。

為了進行不确定推理,我們需要引入信念度,例如牙痛患者有80%的機率存在蛀牙。

‍‍‍機率論提供了一種概括因我們的惰性與無知而産生的不确定性的方式。

除了機率,智能體在做決策時還需要一個概念:效用理論。‍

例如,你要去機場,假如提前90分鐘出發,趕上飛機的機率是95%;提早120分鐘出發,機率提升至97%。‍‍‍‍‍‍

那麼,是不是應該越早越高,追求趕上飛機的最大機率呢?如此一來,你可能要提前一天或者更早住在機場了。‍‍‍‍‍‍

大多數時候不必如此,但假如你有一個無法錯過的會議,或者要趕國際航班,提早一天住到機場,可能是最佳決策。萬豪酒店最早就是靠洞察到商務人士的這一需求而崛起的。‍‍‍‍

由此,我們得出決策論的通用理論:‍‍

決策論=機率論+效用理論

以上的現代方法,離不開兩個未曾謀面的古代敵手。

在諸多反對休谟的人當中,貝葉斯也許是最重要的一位。

當休谟斬斷了因果之間的必然聯系時,最惱火的莫過于教會,因為上帝一直被視為因果的第一推動力。‍‍‍‍‍‍

一個人往往要到了一定歲數,才能夠了解休谟的哲學。尤其是我們這些從小接受确定性訓練的人。

邏輯推理的基本形式是:如果A,則B。

休谟則說,如上這類推理要麼是幻覺,要麼是胡說八道,要麼是自圓其說。

據說虔誠且又擅長數學的牧師貝葉斯是為了反駁休谟,而研究出了貝葉斯公式。‍‍‍

一個神奇的結局出現了:貝葉斯公式反而成為了休谟哲學的現實解藥,将其大刀斬斷的因果,用逆機率的懸橋連接配接了起來。‍‍‍‍‍‍‍‍‍

機率,将邏輯推理的形式修正為:如果A,則有x%的可能性導緻B。‍‍

而貝葉斯公式,則完成了一個小小的(卻産生了無法估量的巨大影響)由果推因的颠倒:

如果觀察到B,則有x%的可能性是因為A導緻。

如此一來,被休谟懷疑的世界,繼續晃晃悠悠地建構出更為龐大繁複的、以機率關聯的因果網絡。

假如貝葉斯試圖反擊休谟的動機是真的,就為“要愛惜你的對手”添加了有力論據。‍‍‍

讓我們用一個簡單的貝葉斯計算,來看看智能體如何學習經驗。‍‍‍‍

題目:黑盒子裡有兩個骰子,一個是正常骰子,扔出數字6的機率是1/6;一個是作弊骰子,扔出數字6的機率是1/2。‍‍‍‍‍‍‍‍

這時,你從中摸出一個骰子,扔了一次,得到一個6。‍‍

請問:你再扔一次這個未知的骰子,得到6的機率是多大?

計算的第一步,是計算這個骰子是正常骰子和作弊骰子的機率分别是多大。

請允許我跳過貝葉斯公式快速計算如下。‍‍‍‍‍‍‍‍

是正常骰子的機率為:1/6÷(1/6+1/2)=1/4‍‍‍‍‍‍

是作弊骰子的機率為:1/2÷(1/6+1/2)=3/4

計算的第二步,更新這個骰子的資訊。原來的機率是各1/2,但現在分别是1/4和3/4。‍‍

那麼,再扔一次,得到6的機率就是:1/4×1/6+3/4×1/2=5/12。‍

從本質層面了解如上這個簡單的計算并不是容易的事情:

兩次扔骰子都是獨立事件,為什麼第一次扔骰子得到6的機率和第二次的機率不一樣?

貝葉斯機率的解釋是,第一次扔骰子得到6的這一結果,作為資訊,更新了我們對第二次扔骰子得到6的機率的判斷。

疑惑的人會繼續問:骰子沒有記憶,為什麼第一次的結果會“改變”第二次結果呢?‍

答案是:沒有改變結果,隻是改變了“信念”。

即使扔了兩次骰子,我們依然不知道這個骰子是正常的還是作弊的,但我們可以帶着這種不确定性向前走,為此需要“猜”這個骰子是正常還是作弊的機率。這個機率,就是信念。‍‍‍‍‍‍‍

根據資訊的變化,快速更新,展現了某種達爾文式的進化。‍‍‍‍

從這個角度看,AI推理起初或許弱小含混,卻有主動适應性,從經驗中不斷學習,并快速演化。

以本題為例:第二次扔骰子,從第一次骰子的結果中學習了經驗,進而令預測更加精确。

這個過程還可以不斷重複,如同發動機般,進而産生了決策和智能的杠杆效應。

如前所述,亞裡士多德曾經認為,修辭和機率等不确定性元素,應該應用于人類社會。而在自然科學和數學領域,則是邏輯推理(尤其是數學邏輯)的陣地。‍‍

而如今,确定世界已經成為不确定世界,絕對真理也被或然真理替代。‍‍

于是,機率不僅成為“真理”的懸梯,甚至成為真理本身。‍‍‍

《人工智能:現代方法》寫道,世界就是這樣,實際示範有時比證明更有說服力。基于機率論的推斷系統的成功要比哲學論證更容易改變人的觀點。

就像兩個人就不同的觀點争論,一種辦法是講道理,講邏輯;還有一種辦法是:‍‍‍‍‍

我們先下個注,然後試着跑跑看呗。‍‍

OpenAI早期投資人裡德·霍夫曼在嘗試将 GPT-4 應用于工作中時,發現了以下三個關鍵原則。

原則1:将GPT-4視為大學生水準的研究助手,而非無所不知的預言家。

原則2:把自己當作導演,而非木匠。

原則3:勇敢嘗試!

多麼有趣的建議啊,我們從中看見了《園丁與木匠》與《自下而上》的智慧:

在大部分工作中,我們習慣于提前計劃,力求避免失誤。這是因為執行計劃在時間和其他資源上都耗費巨大,“三思而後行”的說法指的就是這種情況。

但如果實施計劃比思考它更加省時省力呢?

霍夫曼認為這正是GPT-4及大語言模型令人費解的悖論所在。

既然如此,正确的做法是:

  1. 在比讨論制訂計劃更短的時間裡,GPT-4能為你生成一個完整的回應供你審閱。
  2. 如果你對回應不滿意,可以直接丢棄并嘗試生成另一個。‍
  3. 或者一次性生成多個版本,獲得更多選擇。

我們已經來到了一個“三行而後思”的“強化學習”時代。

‍‍‍‍‍‍八

在《人工通用智能的火花:GPT-4的早期實驗》的報告裡,微軟實驗室如此表述:‍‍

“我們過去幾年,人工智能研究中最顯著的突破是大型語言模型(LLMs)在自然語言處理方面取得的進展。

這些神經網絡模型基于Transformer架構,并在大規模的網絡文本資料體上進行訓練,其核心是使用一個自我監督的目标來預測部分句子中的下一個單詞。”

ChatGPT,是位“語言遊戲”的高手,用的是神經網絡和深度學習。

這與傳統的語言,以及邏輯語言,都不一樣。

羅素曾經試圖建構一套邏輯語言,想從少數的邏輯公理中,推演出數學。

他提出了自己邏輯原子主義,試圖消除那些形而上語言的混亂,以邏輯語言和我們的現實世界一一對應。

在與羅素的互相影響下,維特根斯坦認為哲學的所有問題其實就是語言問題,進而推動了哲學的語言轉向。

一種西方哲學史觀點認為:古代哲學關注本體論,近代哲學關注認識論,20世紀哲學關注語言學問題。

那麼,作為“系統地從語言來思考世界的第一人”,維特根斯坦與羅素有何不同?

陳嘉映的論斷是:羅素從本體論來思考語言的本質,維特根斯坦則一直從語言的本質來構想本體論。

也許我們能從羅素給情人奧托林·莫雷爾夫人一封信裡,發現維特根斯坦哲學上的某些經驗主義線索:

“我們這位德國工程師啊,我認為他是個傻瓜。他認為沒有什麼經驗性的東西是可知的——我讓他承認房間裡沒有一頭犀牛,但他不肯。”

和每個天才一樣,維特根斯坦卓絕,但也疑惑。

再說回ChatGPT,它懂語言嗎?如同《天才與算法》一書的設問:

機器可以在不了解語言或不接觸周圍實體世界的情況下,生成有意義的句子,甚至是美的句子嗎?

老派的AI,試圖采用羅素的方法。這類模型認為:

“理性和智能是深度的、多步驟的推理,由一個串行過程指揮,并由一個或幾個線程組成,使用少量的資訊,由少量的強相關變量來表達資訊。”

對比而言,“現代的機器學習模式由淺(少步)推理組成,使用大量資訊的大規模并行處理,并涉及大量弱相關變量。”

一個有趣的來描述二者對比的例子是,電影《模仿遊戲》裡的圖靈,炒掉了自己的密碼破解小組裡的語言學專家。

《人工智能:現代方法》認為,純粹的資料驅動的模型,對比基于“文法、句法分析和語義解釋”的手工建構方法,更容易開發和維護,并且在标準的基準測試中得分更高。

該書作者還提及:

可能是Transformer及其相關模型學習到了潛在的表征,這些表征捕捉到與文法和語義資訊相同的基本思想,也可能是在這些大規模模型中發生了完全不同的事情,但我們根本不知道。

未必那麼精确的類比是:AI如孩子般學習語言。這正是當年圖靈所所設想的:

有一個孩子般的大腦,然後去學習。而非一開始就設計一個成年人的大腦。‍‍‍‍

孩子不懂文法建構,也沒有成熟的邏輯,也遠沒有成年人那樣有主動的刻意練習。可是想想看,成年人學習語言的效率,與孩子對比,是不是爛到渣?

我不禁聯想起一個對教育的嘲諷:天生就是語言學習天才的孩子,卻要在一輩子都學不好一門語言的成年人的指導下學習語言。

讓我們來看看,AI如何像一個孩子般,天才般地學習。

神經網絡和深度學習經曆了并不算短暫的黑暗期。

從上世紀80年代開始的整整30年間,隻有很少一部分相關研究者義無反顧地投身其間,他們飽受懷疑,也幾乎拿不到科研經費。

也許是由于這個原因,深度學習三巨頭辛頓(Hinton)、本吉奧(Bengio)、楊立昆(LeCun)似乎都和加拿大有些關系,他們退守在那裡研究、教學、讀書。這倒是很符合那個“傻國家”的氣質。

一個讓人“心酸”的細節是,2012年辛頓帶着學生在ImageNet 圖像識别比賽上拿了冠軍,商業公司蜂擁而至。辛頓教授開出的商業報價,隻是區區一百萬美元。

(後來谷歌以4400萬美元“中标”。)

“老派”AI,使用明确的一步步指令指引計算機,而深度學習則使用學習算法從資料中提取輸入資料與期望輸出的關聯模式,正如上一節的示範。

衆所周知,漫漫長夜之後,随着人類計算機算力和資料的指數級增長,深度學習一飛沖天,從阿爾法狗一戰封神,再到ChatGPT征服全球。‍‍‍‍

為什麼是Open AI,而不是DeepMInd?我對此略有好奇。

OpenAI的聯合創始人兼首席科學家伊利亞·薩特斯基弗,是辛頓在多倫多大學帶的學生。

他似乎延續了辛頓對深度學習的信仰,并且勇于全力下注。‍‍‍‍

辛頓認為“深度學習足以複制人類所有的智力”,将無所不能,隻要有更多概念上的突破。例如“transformers”利用向量來表示詞義的概念性突破。

此外,還要大幅度增加規模,包括神經網絡規模和資料規模。例如,人腦大約有100萬億個參數,是真正的巨大模型。而GPT-3有1750億個參數,約比大腦小一千倍。

神經網絡模仿了人類的優勢:處理有大量參數的少量資料。但人類在這方面做得更好,而且節能許多倍。

先行一步的DeepMInd,其發展方向和速度,除了陷入與谷歌的“商業VS科研”的兩難糾纏,還不可避免地受到哈薩比斯的AI哲學觀的影響。

哈薩比斯認為不管是ChatGPT,還是自家的Gopher,盡管可以幫你寫作,為你繪畫,“有一些令人印象深刻的模仿”,但AI“仍然不能真正了解它在說什麼”。

是以,他說:“(這些)不是真正的意義上的(智能)。”

哈薩比斯的老師,MIT的Poggio教授更尖銳地指出:深度學習有點像這個時代的“煉金術”,但是需要從“煉金術”轉化為真正的化學。

楊立昆反對煉金術的提法,但他也認為要探究智能與學習的本質。人工神經元受到腦神經元的直接啟發,不能僅僅複制大自然。

他的觀點大概是,工程學實作了的東西,也隻有通過科學打開黑盒子,才能走得更遠。

“我認為,我們必須探究智能和學習的基礎原理,不管這些原理是以生物學的形式還是以電子的形式存在。正如空氣動力學解釋了飛機、鳥類、蝙蝠和昆蟲的飛行原理,熱力學解釋了熱機和生化過程中的能量轉換一樣,智能理論也必須考慮到各種形式的智能。”

幾年前,巅峰時刻的哈薩比斯就表達過,僅靠神經網絡和強化學習,無法令人工智能走得更遠。

類似的反思,也發生于貝葉斯網絡之父 Judea Pearl。

他說,機器學習不過是在拟合資料和機率分布曲線。變量的内在因果關系不僅沒有被重視,反而被刻意忽略和簡化。

簡單來說,就是:重視相關,忽視因果。‍‍‍‍‍

在Pearl看來,如果要真正解決科學問題,甚至開發具有真正意義智能的機器,因果關系是必然要邁過的一道坎。‍‍‍‍‍‍‍‍

不少科學家有類似的觀點,認為應該給人工智能加上常識,加上因果推理的能力,加上了解世界事實的能力。是以,解決方案也許是“混合模式”–用神經網絡結合老式的手工編碼邏輯。‍‍‍‍‍‍‍‍‍

辛頓對此頗為不屑,一方面他堅信神經網絡完全可以有推理能力,畢竟大腦就是類似的神經網絡。另一方面,他認為加入手工編碼的邏輯很蠢:

它會遇到所有專家系統的問題,那就是你永遠無法預測你想要給機器的所有常識。

AI真的需要那些人類概念嗎?阿爾法狗早已證明,所謂棋理和定式隻是多餘的夾層解釋而已。‍‍‍‍‍‍‍‍

關于AI是否真正“了解”,真正“懂得”,真正有“判斷力”,辛頓以“昆蟲識别花朵”為例:

“昆蟲可以看到紫外線,而人類不能,是以在人類看來一模一樣的兩朵花,在昆蟲眼中卻可能截然不同。那麼能不能說昆蟲判斷錯誤了呢?昆蟲通過不同的紫外線信号識别出這是兩朵不同的花,顯然昆蟲沒有錯,隻是人類看不到紫外線,是以不知道有差別而已。”

我們說AI“不懂”什麼,會不會是過于以人類為中心了?

假如我們認為AI沒有可解釋性,算不上智能,可會不會是即使AI解釋了,我們也不懂?就像“人類隻有借助機器檢測,看到兩朵花的顔色信号在電磁波譜上分屬不同區域,才能确信兩朵花确有不同。”

從十幾歲開始,就相信“模仿大腦神經網絡”的辛頓,仿佛有某種宗教式的堅定。

于是,在某個路口,哈薩比斯略有遲疑,而伊利亞·薩特斯基弗則和辛頓一路向前,豪賭到底。

辛頓的人生哲學是“基于信仰的差異化”,他的确也是如此實踐的。

如今,盡管哈薩比斯認為ChatGPT僅僅是更多的計算能力和資料的蠻力,但他也不得不承認,這是目前獲得最佳結果的有效方式。

對AI路線的分歧,不過是一百多年來某類科學暗湧的延續。

相當長的歲月裡,在大雪紛飛的多倫多,辛頓幾乎是深度學習唯一的守夜人。

他大學在劍橋大學讀生理學和實體學,其間轉向哲學,拿的是心理學學士學位,後來再讀了人工智能博士學位。

辛頓等人在統計力學中得到靈感,于1986 年提出的神經網絡結構玻爾茲曼機,向有隐藏單元的網絡引入了玻爾茲曼機器學習算法。

如下圖,所有節點之間的連線都是雙向的。是以玻爾茲曼機具有負回報機制,節點向相鄰節點輸出的值會再次回報到節點本身。

玻爾茲曼機在神經元狀态變化中引入了統計機率,網絡的平衡狀态服從玻爾茲曼分布,網絡運作機制基于模拟退火算法。

ChatGPT的底層邏輯

玻爾茲曼機。圖檔來自《圖解人工智能》一書

從香農,再到辛頓,他們都從玻爾茲曼那裡獲得了巨大的靈感。

将“機率”引入實體學,看起來非常奇怪。‍‍

人類直到19世紀之後,才知道“熱”是物體内部大量分子的無規則運動的表現。那麼,為什麼熱量總從熱的物體傳到冷的物體?‍‍‍‍‍

玻爾茲曼說,原子(分子)完全是随機運動的。并非是熱量無法從冷的物體傳到熱的物體,隻是因為:‍

從統計學的角度看,一個快速運動的熱物體的原子更有可能撞上一個冷物體的原子,傳遞給它一部分能量;而相反過程發生的機率則很小。在碰撞的過程中能量是守恒的,但當發生大量偶然碰撞時,能量傾向于平均分布。

這其中,沒有實體定律,隻有統計機率。這看起來非常荒謬。‍‍

堅定的科學主義者費曼,後來也提出“機率振幅”,用來描述實體世界的本質。

對此,費曼解釋道:這是不是意味着實體學——一門極精确的學科——已經退化到“隻能計算事件的機率,而不能精确地預言究竟将要發生什麼”的地步了呢?是的!這是一個退卻!但事情本身就是這樣的:

自然界允許我們計算的隻是機率,不過科學并沒就此垮台。

事實上,羅素也主張因果關系的概然性,認為一切規律皆有例外,是以他也不贊成嚴格的決定論。‍

也許是因為都持有“自下而上”的世界觀,玻爾茲曼喜歡達爾文,他在一次講座中宣稱:‍‍‍‍‍‍‍‍‍

“如果你問我内心深處的信念,我們的世紀将被稱為鋼鐵世紀還是蒸汽或電的世紀呢?我會毫不猶豫地回答:它将被稱為機械自然觀的世紀,達爾文的世紀。”

對達爾文的自然選擇理論,玻爾茲曼認識到,生物之間通過資源競争展開“一種使熵最小化的戰鬥”,生命是通過捕獲盡可能多的可用能量來使熵降低的鬥争。

和生命系統一樣,人工智能也是能夠自動化實作“熵減”的系統。‍‍

生命以“負熵”為食,人工智能系統則消耗算力和資料。‍

楊立昆估算,需要10萬個GPU才能接近大腦的運算能力。一個GPU的功率約為250瓦,而人類大腦的功率大約僅為25瓦。

這意味着矽基智能的效率是碳基智能的一百萬分之一。

是以,辛頓相信克服人工智能局限性的關鍵,在于搭建“一個連接配接計算機科學和生物學的橋梁”。

十一

達·芬奇曾說過:“簡單是終極的複雜。”

牛頓那一代相信上帝的科學家,認為神創造這個世界時,一定運用了規則。

他們隻管去發現規則,而不必在意暫時的不可了解。例如,萬有引力公式為什麼長成那樣?為什麼要和距離的平方成反比?

另一方面,牛頓們信奉奧卡姆剃刀的原則,認為世界的模型基于某些簡潔的公式。他們至少相信存在某個這樣的公式,從愛因斯坦到霍金,莫不如是。

然而在不确定性時代,機率似乎比決定論派更能解釋這個世界。牛頓式的确定退縮到了有限的領域。

也許費曼是對的,科學家是在用一個篩網檢驗這個世界,某些時刻似乎所有的現象都能通過篩孔,但如今我們知道多麼完備的科學都隻是暫時的解釋,隻是暫時未被證僞的篩網。但這并不影響我們向前。

還有一種哲學認為,世界本身就是在為自己模組化。試圖用一個大一統理論解釋世界幾乎是不可能的,更何況宇宙還在繼續膨脹。

從以上有趣但略顯含混的角度看,ChatGPT是用一種反愛因斯坦的方式為世界模組化。它有如下特點:

  1. 是機率的,而非因果的;
  2. 盡可能地去模拟人類世界這一“大模型”,從經驗中學習和進化,而非去探尋第一原理;
  3. 它信奉(至少暫時如此)“複雜是終極的簡單”;
  4. 它驅逐了神。因為它自己越來越像一個神。

AI和人類别的熱鬧事物一樣,經常會有周期性的熱潮。

上一波是2016年,熱起來,然後又慢慢靜下來。

七年過去了,AI再次熱起。Open AI照例沒有打開“黑盒子”,卻帶來了影響力更為廣泛的浪潮。

這一次,廣泛性似乎戰勝了專業性。人們似乎更關注那個會畫畫的、可能替代自己摸魚的AI,而不是那個能戰勝世界冠軍、能研究蛋白質折疊解決人類頂尖難題的AI。

這其中有多少是工程的突破和技術的飛躍?有多少是商業驅動下的大力出奇迹?有多少是人類社會慣常的泡沫?

毋庸置疑,人類過往的偉大突破,不少都是在多種理性和非理性力量的交織之下實作的。

這裡面的機會是:

1、賣水者。如英偉達,Scale AI等;

2、新平台的出現。會有超級應用突破微軟和谷歌等巨頭無敵的新瓶裝老酒嗎?

3、新平台既有通過生産力的提升創造的新價值空間,如各種全新的産品和服務,也有對舊有價值空間的掠奪;

4、也許會有iPhone的颠覆者,以及圍繞其展開的各種應用和服務;‍‍‍

5、AI會成為基礎設施。

但是,水和電成為基礎設施,網際網路成為基礎設施,與AI成為基礎設施,絕非簡單的類比或更新。

大概的趨勢也許是,商業上的壟斷與兩極分化會更加殘酷。職業上,或許中間階層會更加無望;

6、因為AI極其耗電,能源領域大有可為;

7、“場景”和“應用”會有機遇。尤其是那些能夠較好地利用AI平台實作人機結合的場景與應用。

8、對個體而言,我們要問的是,AI還需要人類充當新基礎設施和新系統的類似于“操作員、司機、程式員、快遞員”的新時代角色嗎?

十二

人工智能的變遷,幾乎對應着人類認知世界的變遷結構。

從确定性到不确定性,從實體定律到統計機率,實體和資訊交彙于“熵”,并以類似的達爾文觀念,進化出有生命的熵減系統。

在這個愈發茫然的世界裡,AI在疫情後時代獲得了世人額外的關切;

諸神已被人類背棄,算法用強大而未知的相關性替代了神秘主義和因果霸權,仿佛成為新神。

真實與信念,确定與随機,意識與虛無,再次于大衆的狂歡之中,對峙在時代的斷崖邊緣。

從樂觀的角度看,牛頓的信徒和達爾文的信徒也許可以攜手,借助于尚不知進化邊界何在的人工智能,去突破人類的智慧疆界。

哈耶克說:“一個秩序之是以可取,不是因為它讓其中的要素各就其位,而是在這個秩序上能夠生長出其他情況下不能生長出的新力量。”

迄今為止,我們尚不能定義什麼是智能,什麼是意識。‍‍‍‍‍‍

然而,卻有一個黑乎乎的盒子,告訴我們可能會超越人類的智能,甚至湧現出人類的意識。

微軟的報告中這樣寫道:

我們沒有解決為什麼以及如何實作如此卓越的智能的基本問題。它是如何推理、計劃和創造的?

當它的核心隻是簡單的算法元件–梯度下降和大規模變換器與極其大量的資料的結合時,它為什麼會表現出如此普遍和靈活的智能?

AI研究人員承認,智能是否可以在沒有任何代理或内在動機的情況下實作,是一個重要的哲學問題。

在2023年的這個并不容易的春天,我對ChatGPT的态度坦然而期待:

我希望見到它所具備的可能性,為這個混亂的世界帶來某些“熵減”。‍‍

在所有預測中,我期待Kurzweil的那個“2030 年技術将使人類享受永生”的預言。

我自己對永生沒興趣,但不想失去身邊的人們。我對世俗的依賴大過對“超人類主義”的擔憂。

我不太相信意識的上傳,因為一旦上傳,就可以複制,就不是唯一的,就失去了自由意志,又談何“意識”呢?‍

人類會洞察大腦最深層次的秘密嗎?湯姆·斯托帕警告過:

“當我們發現了所有的奧秘,并失去了所有的意義時,我們将會在空蕩蕩的海邊孤身一人。”

哥德爾的“不完備性定理”告訴我們,不确定性是人類認識的形式邏輯思維本身所固有的。

“一個計算機可以修改自身的程式,但不能違背自身的指令——充其量隻能通過服從自身的指令來改變自身的某些部分。”

哥德爾算是為AI,為人類劃定了邊界嗎?否則,人類制造超級AI,然後拜其為神,何嘗不是自我奴役?‍

哥德爾又告訴我們,人類永遠可以在“實在主義”中通過“直覺和直覺”引入構成高一級形式系統的新東西,建立新公理系統,如此推進以至無窮。

這就是彭羅斯所持的那種“人心超過計算機”的觀念。

最後

上一次,七年前,在阿爾法狗面前,人類曾經哭泣過;

這一次,無人哭泣,卻有萬衆狂歡。

在兩次AI高潮之間的7年裡,我們經曆了許多,失去了許多。

人們渴望擁抱某些希望,某些确定性,即使那些确定性來自一些不确定性的智慧。‍‍‍‍

就我自己而言,也遭遇了一些前所未有的艱難時刻。所謂艱難,并非指一些困難的抉擇,也并非說沒有選項。‍‍‍‍‍‍‍

恰恰相反,依照最優決策原理,我很容易通過期望值計算,得出最佳選項,獲得所謂最大化的收益。

然而,我追溯到内心的源頭,重新定義了自己的期望效用,然後據此做出了有點兒辛頓風格的“基于信仰的差異化”選擇。‍‍‍‍‍‍

對任何一個人而言,不管是難是易,是聰明是愚蠢,是理性是任性,這種事兒在技術層面都隻算小菜一碟。

可對AI來說,自己去定義期望效用,暫時難于登天。‍‍

是以,研究人員稱,為“大型語言模型”配備代理權和内在動機是未來工作的一個迷人的重要方向。

而“代理權”與“内在動機”這兩點,一個普通人類隻需要一秒鐘或者幾個不眠之夜即可實作。‍‍

或許關鍵不在于得失,不在于效用函數,而在于“存在”。

如伊塔洛·卡爾維諾所言:

“随着時光流逝,我慢慢地明白了,隻有存在的東西才會消失,不管是城市,愛情,還是父母。”

在本文開篇寫到的傳奇故事裡,掃地少年皮茨和教授麥卡洛克兩人之間非凡的友誼直至終生。‍‍‍

比起電影《心理捕手》裡的心理學教授“威廉姆斯”,麥卡洛克對皮茨的情感更為深厚,充滿了父親般的愛,和學術上的“琴瑟和鳴”。

後來,當麥卡洛克與控制論之父維納産生決裂,皮茨毫不猶豫地站在了麥卡洛克一邊,盡管維納是他的博士生導師,幾乎能夠左右他在學術界的前程。皮茨甚至為此燒掉了自己的論文。‍‍‍‍‍‍‍‍

他如街頭少年般熱血而沖動。

不久以後,皮茨繼續遭遇了學術上的打擊,有個實驗表明,似乎邏輯并未如他的理論所預期般決定大腦的思維過程。

這個鍋爐工的孩子再次回到命運的枷鎖之中。曾經點燃他灰暗歲月的對數學和邏輯的激情,以及關于人工智能的天才般的構想,一點點被世俗的煙塵淹沒了。‍‍‍‍‍‍‍‍

隕落中的天才用血脈中無法斬斷的自我毀滅,來違背自己無與倫比的邏輯天賦。皮茨開始酗酒,最後在寄宿之家孤獨死去,年僅46歲。‍‍‍四個月後,麥卡洛克也在同一年去世了。‍

ChatGPT的底層邏輯

許多年後,當人們追溯神經網絡波瀾起伏的發展曆程,總會來到起點:麥卡洛克和皮茨共同建構的豐碑。‍‍‍‍‍‍

就像我們來到大江大河的源頭,發現不過是一處小小的溪流。

哥德爾曾在哲學手稿中留下一句話:世界的意義就在于事實與願望的分離,即事與願違。

我更願意用紀伯倫的話語來代替哥德爾的迷惘,盡管就底層而言也許是同一件事。詩人說:

我們活着隻為了去發現美,其他一切都是等待的種種形式。

作者:孤獨大腦,公衆号:孤獨大腦(ID:lonelybrain)

本文由 @孤獨大腦 原創釋出于人人都是産品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀