天天看点

ChatGPT将GPT-4设为默认模型允许用户上传文件以及使用快捷键

作者:执笔方寸AI

人类语言及其生成过程一直被认为是复杂性的巅峰。尽管人类大脑仅有约1000亿个神经元和约100万亿个连接,却能够实现这一切,令人惊叹。人们或许会认为,大脑中可能存在着一种尚未被发现的物理特性或新层次,除了神经元网络之外。然而,ChatGPT的出现给我们带来了重要的新信息:一个纯粹的人工神经网络,其连接数与大脑神经元数量相当,却能够出色地生成人类语言。

ChatGPT仍然是一个庞大而复杂的系统,其中的神经网络权重几乎与当前世界上可用文本中的词一样多。然而,在某种程度上,我们仍然难以相信语言的丰富性和它所能涵盖的事物都可以被封装在这样一个有限的系统中。这其中的部分原理无疑反映了一个普��现象,即使基础规则很简单,计算过程也能够极大地增加系统的表面复杂性。然而,正如上述讨论所示,ChatGPT使用的这种神经网络实际上是经过特殊构建的,以限制这种现象(以及与之相关的计算不可约性)的影响,从而使其更易于训练。

ChatGPT将GPT-4设为默认模型允许用户上传文件以及使用快捷键

那么,ChatGPT如何在语言方面取得如此巨大的成功呢?我认为基本答案在于,语言在本质上比看起来更简单。这意味着即使是具有简单神经网络结构的ChatGPT,也能够成功地捕捉到人类语言的"本质"和背后的思维方式。此外,在训练过程中,ChatGPT通过某种方式"隐含地发现"了使这一切成为可能的语言(和思维)规律。

ChatGPT的成功为一个基础而重要的科学事实提供了证据:我们仍然可以期待发现重大的新的"语言法则",实际上是"思维法则"。在ChatGPT中,这些法则最多只是隐含的,因为它是一个神经网络。然而,如果我们能够以某种方式使这些法则变得明确,那么就有可能以更直接、更高效和更透明的方式实现类似于ChatGPT的功能。

那么,这些法则可能是什么样的呢?最终,它们必须为我们提供关于如何组织语言及其表达方式的指导。接下来,我们将探讨在ChatGPT内部可能找到一些线索,并根据构建计算语言的经验来探索前进的道路。但首先,让我们讨论两个早已知晓的"语言法则"的例子,以及它们与ChatGPT的运作之间的关系。

首先,让我们来讨论语言的语法。语言不仅仅是将一些词随机组合在一起,而是有着明确的语法规则。在英语中,名词前可以有形容词,后可以有动词,但通常两个名词不能相邻。这种语法结构可以通过一组规则来捕捉,这些规则定义了如何组织成所谓的“解析树”。

ChatGPT将GPT-4设为默认模型允许用户上传文件以及使用快捷键

ChatGPT虽然并不明确地“了解”这些规则,但在训练过程中,它隐含地发现了这些规则,并且似乎擅长遵守它们。关于它在“宏观”上是如何做到这一点的原理还不清楚。但是为了获得一些见解,我们可以看一个更简单的例子。

ChatGPT将GPT-4设为默认模型允许用户上传文件以及使用快捷键

让我们考虑一种由“(”和“)”组成的“语言”,其语法规定括号应该始终保持平衡。我们可以训练一个神经网络来生成“语法正确”的括号序列吗?在神经网络中,有各种处理序列的方法,但是这里我们使用了类似ChatGPT中的Transformer网络。我们可以首先向网络输入一些语法正确的括号序列作为训练样本。一个微妙的地方是,除了我们的“内容标记”[在这个例子中是“(”和“)”]之外,还必须包括一个“End”标记,表示输出不应继续下去了(对于ChatGPT来说,这表示已经到达了“故事的结尾”)。

如果我们只使用一个具有8个注意力头和长度为128的特征向量的注意力块来构建Transformer网络(ChatGPT使用了96个注意力块,每个块有96个头),似乎不太可能使其学会括号语言。但是如果我们使用2个注意力块,学习过程似乎会收敛——至少在提供了一千万个样本之后(并且增加更多样本的展示似乎只会降低性能)。

继续阅读