天天看點

ChatGPT将GPT-4設為預設模型允許使用者上傳檔案以及使用快捷鍵

作者:執筆方寸AI

人類語言及其生成過程一直被認為是複雜性的巅峰。盡管人類大腦僅有約1000億個神經元和約100萬億個連接配接,卻能夠實作這一切,令人驚歎。人們或許會認為,大腦中可能存在着一種尚未被發現的實體特性或新層次,除了神經元網絡之外。然而,ChatGPT的出現給我們帶來了重要的新資訊:一個純粹的人工神經網絡,其連接配接數與大腦神經元數量相當,卻能夠出色地生成人類語言。

ChatGPT仍然是一個龐大而複雜的系統,其中的神經網絡權重幾乎與目前世界上可用文本中的詞一樣多。然而,在某種程度上,我們仍然難以相信語言的豐富性和它所能涵蓋的事物都可以被封裝在這樣一個有限的系統中。這其中的部分原理無疑反映了一個普��現象,即使基礎規則很簡單,計算過程也能夠極大地增加系統的表面複雜性。然而,正如上述讨論所示,ChatGPT使用的這種神經網絡實際上是經過特殊建構的,以限制這種現象(以及與之相關的計算不可約性)的影響,進而使其更易于訓練。

ChatGPT将GPT-4設為預設模型允許使用者上傳檔案以及使用快捷鍵

那麼,ChatGPT如何在語言方面取得如此巨大的成功呢?我認為基本答案在于,語言在本質上比看起來更簡單。這意味着即使是具有簡單神經網絡結構的ChatGPT,也能夠成功地捕捉到人類語言的"本質"和背後的思維方式。此外,在訓練過程中,ChatGPT通過某種方式"隐含地發現"了使這一切成為可能的語言(和思維)規律。

ChatGPT的成功為一個基礎而重要的科學事實提供了證據:我們仍然可以期待發現重大的新的"語言法則",實際上是"思維法則"。在ChatGPT中,這些法則最多隻是隐含的,因為它是一個神經網絡。然而,如果我們能夠以某種方式使這些法則變得明确,那麼就有可能以更直接、更高效和更透明的方式實作類似于ChatGPT的功能。

那麼,這些法則可能是什麼樣的呢?最終,它們必須為我們提供關于如何組織語言及其表達方式的指導。接下來,我們将探讨在ChatGPT内部可能找到一些線索,并根據建構計算語言的經驗來探索前進的道路。但首先,讓我們讨論兩個早已知曉的"語言法則"的例子,以及它們與ChatGPT的運作之間的關系。

首先,讓我們來讨論語言的文法。語言不僅僅是将一些詞随機組合在一起,而是有着明确的文法規則。在英語中,名詞前可以有形容詞,後可以有動詞,但通常兩個名詞不能相鄰。這種文法結構可以通過一組規則來捕捉,這些規則定義了如何組織成所謂的“解析樹”。

ChatGPT将GPT-4設為預設模型允許使用者上傳檔案以及使用快捷鍵

ChatGPT雖然并不明确地“了解”這些規則,但在訓練過程中,它隐含地發現了這些規則,并且似乎擅長遵守它們。關于它在“宏觀”上是如何做到這一點的原理還不清楚。但是為了獲得一些見解,我們可以看一個更簡單的例子。

ChatGPT将GPT-4設為預設模型允許使用者上傳檔案以及使用快捷鍵

讓我們考慮一種由“(”和“)”組成的“語言”,其文法規定括号應該始終保持平衡。我們可以訓練一個神經網絡來生成“文法正确”的括号序列嗎?在神經網絡中,有各種處理序列的方法,但是這裡我們使用了類似ChatGPT中的Transformer網絡。我們可以首先向網絡輸入一些文法正确的括号序列作為訓練樣本。一個微妙的地方是,除了我們的“内容标記”[在這個例子中是“(”和“)”]之外,還必須包括一個“End”标記,表示輸出不應繼續下去了(對于ChatGPT來說,這表示已經到達了“故事的結尾”)。

如果我們隻使用一個具有8個注意力頭和長度為128的特征向量的注意力塊來建構Transformer網絡(ChatGPT使用了96個注意力塊,每個塊有96個頭),似乎不太可能使其學會括号語言。但是如果我們使用2個注意力塊,學習過程似乎會收斂——至少在提供了一千萬個樣本之後(并且增加更多樣本的展示似乎隻會降低性能)。

繼續閱讀