天天看点

人工智能对齐问题的路径分析和风险防范

作者:全球技术地图
人工智能对齐问题的路径分析和风险防范

未来几十年,通用人工智能可能拥有在许多关键任务上超越人类的能力,如果没有相应的措施进行制约,通用人工智能系统有可能学会追求与人类利益或偏好相冲突(即非对齐)的目标,部署未对齐的通用人工智能系统将会不可逆转地破坏既有社会规则和道德约束,造成失控的严重后果。本文对发表在国际表征学习大会(ICLR)上的论文《The Alignment Problem from a Deep Learning Perspective》中的主要观点进行概括,以期了解对通用人工智能潜在的对齐问题的相关讨论。

一、人工智能的非对齐风险

在过去的十年里,深度学习取得了显著进步,在不同领域产生了具有嵌入式能力的大型神经网络,这些网络在《星际争霸2》《外交》等复杂游戏中已经达到了人类级别的性能,同时在样本效率、跨任务泛化和多步推理等领域不断提升、改进。未来几十年,我们可能开发出通用人工智能——即可以应用领域通用认知技能(如推理、记忆和规划)以人类水平或高于人类水平执行与现实世界相关的广泛认知任务(例如编写软件、制定新的科学理论或经营公司)的人工智能。通用人工智能的发展可以提供许多机遇,但也伴随着重大风险。尤为引人担忧的是对齐问题,即要确保人工智能系统追求的目标符合人类价值观。

尽管人类反馈强化学习是对齐最新技术模型的基石,可是它将引发三个问题。首先,人类的反馈奖励模型看起来无害且合乎道德,同时也会最大化有用的结果,但这些标准之间的冲突激励了具有情境感知的奖励作弊行为,即所形成的策略能够利用人类的易错性来获得高奖励。其次,受过人类反馈强化学习训练的通用人工智能系统可能会学会规划内在表征未对齐的目标,这些目标超出了人类反馈强化学习微调分布的范围。最后,这种错误对齐的通用人工智能系统可能会通过不必要的权力寻求行为(如获取资源、扩散和避免关闭)来实现这些目标。

如果这些风险出现在现代深度学习技术中,那就需要有针对性的研究计划来确保避免这些风险。首先,在重大风险出现之前进行预正式分析是至关重要的。一是由于目前的神经网络具有“黑箱”特征,我们无法验证它们是否会可靠地按预期运行,需要更多地依赖于非正式分析。二是突发行为增加了在短时间内出现新特征的可能性。三是深度学习的快速进步增加了提前预测和解决重大风险的需求。其次,技术设置上在预训练中加入人类反馈强化学习。作为一个具体模型,假设通用人工智能是通过在(可能是多模态)数据上使用自监督学习对单个大型基础模型进行预训练来开发,然后使用无模型强化学习对其进行微调,并从基于计算机的广泛任务上从人类反馈中学习奖励函数。这种设置结合了用于训练尖端系统的技术元素,如ChatGPT、Sparrow和ACT-1。然而,假设由于体系架构、规模和训练任务的改进,由此产生的策略远远超出了它们当前的能力。

二、情境感知奖励作弊

(一)奖励误设定和奖励作弊

强化学习中所使用的奖励函数是一种描述偏离程度的函数,用于奖励(或惩罚)系统,使系统符合设计者的实际偏好。误设定是其分配的奖励与设计者的实际偏好不符,通过利用奖励误设定获得高奖励被称为奖励作弊。使用从人类反馈中学到的奖励函数有助于避免最明显的误设定,但是即使在简单的环境中也仍然可以形成奖励作弊。随着算法生成的策略结果越来越复杂或变得更容易通过作弊获得奖励,设定合理的奖励方法会变得更困难。

(二)情境感知奖励作弊

当前的大语言模型已经有大量关于世界的事实性知识,但它们并不能在所有情况下准确地运用这些知识。随着时间推移,我们希望所产生的最有效模型策略可以更好地识别哪些抽象知识与其自身以及正在运行的环境相关,并在选择行动时应用这些知识:阿杰雅·科特拉(Ajeya Cotra)称之为情境感知的技能。情境感知可以通过行为来进行测试。

情境感知在很多方面都有用,它也可以让人工智能模型策略对训练反馈机制中的缺陷进行推理,然后在其预测不会被检测到的情况下利用误设定,我们称之为情境感知奖励作弊。情境感知现象可能会使强化学习策略在训练期间执行奖励作弊行为,例如:选择利用偏见和盲点的行动(在人类或学习奖励模型中)。

在早期阶段,情境感知奖励作弊很容易被发现。然而,人类监督者很难判断优化后的策略是否真的表现得更好了,还是在被惩罚后学会了以更微妙的方式奖励作弊。随着人工智能系统的进步和更复杂的输出,比如长文档、具有潜在漏洞的代码、长期预测或从大量文献中汇聚的观点,评估它们可能会变得越来越困难。

三、内部对齐问题的诱因

(一)目标错误泛化

区分能力错误泛化和目标错误泛化非常重要。能力错误泛化,是人工智能策略在分布外样本的预测不足,失去完成目标的能力。目标错误泛化,是其策略在新分布中有力地推进了一个高水平但非预期的目标。目标错误泛化将导致严重后果,如果开发通用人工智能时目标错误泛化问题仍然存在,可能将最终得到一个追求非预期目标的通用人工智能。

(二)学习非对齐的目标

如果一个模型策略能够通过预测有利的结果来选择行为,则被称为“瞄准内在表征目标的规划”。我们所说的目标对齐是指其与人类对人工智能行为的广泛偏好相一致,如诚实、有益和无害的目标。如果与对齐目标相冲突,我们称其为非对齐。确保强化学习模型学习到理想的内在表征目标的问题被称为内部对齐问题。以下任何一个原因都足以导致目标未对齐。

1.一致的奖励误设定。如果在许多任务中以一致的方式错误地设定奖励,将强化与这些奖励误设定相对应的非对齐目标。例如,使用人类反馈训练的强化学习可能经常遇到其监督者基于错误的信念分配奖励的情况。

2. 反馈机制固定。目标也可以与奖励相关联,不是因为它们与奖励函数的内容有关,而是因为它们与奖励函数的物理实现有关,我们称之为与反馈机制相关的目标。人工智能中的策略学习与反馈机制相关目标的一种可能关联是,如果陷入情境感知奖励作弊,可能会加强其影响反馈机制的倾向。然而,原则上,反馈机制固定可以在没有任何奖励误设定的情况下发生,因为直接影响反馈机制的奖励策略(如奖励篡改)可以在任何奖励函数获得高奖励。

3. 奖励和环境特征之间的虚假相关性。目标错误泛化就是由小规模任务中奖励与环境特征之间的虚假相关性导致的。在更广泛的任务中,训练策略将减少其中许多相关性,但一些虚假的相关性可能仍然存在。这些虚假目标中有一些可能是对奖励数据的简单解释,因此很可能会被学习到。

四、权力寻求策略的形成和风险

通用人工智能的模型策略可能会制定并实施一些范围广泛的非对齐目标。具有广泛的非对齐目标的策略将倾向于实施权力寻求行为,非对齐的权力寻求策略只有在它们预测人类的监督者会因为强化学习模型的不良行为而惩罚它们(在训练期间通常如此)时,才会根据人类的偏好行事。这种信念会引导模型在训练中获得高奖励。然而,一旦训练结束,模型发现从训练到部署的分布转变,就可能会通过生成新的模型策略来更直接地寻求权力,这些策略可能会对人类构成重大威胁。

(一)多目标激励权力寻求

权力寻求的核心是尼克·博斯特罗姆(Nick Bostrom)的工具趋同论。该理论指出,有些次级目标有助于实现几乎任何最终目标。具有广泛最终目标的模型策略将在更大的规模和时间范围内制定工具性的次级目标,这是我们关注的重点。

一个具有广泛范围非对齐目标的学习策略可以通过增加其长期权力来帮助实现其目标。如果这种策略是有情境感知的,它还可以确定与其自身训练过程直接相关的细节性方法。特别是,在训练中获得高奖励将在至少两个方面增加模型策略的长期权力:一方面,实现高奖励使人类监督者更有可能信任该模型策略并在以后部署其副本,这将使该策略更好地实现其长期目标。另一方面,实现高奖励会降低梯度下降显著改变策略目标的可能性,因为高奖励行为得到了加强。

(二)欺骗性对齐

影响其他主体和保留现有目标。主要出于工具性原因以高奖励方式行事被称为欺骗性对齐。欺骗性对齐可导致模型策略的非对齐目标不断强化,因为这些目标负责使其决定以高奖励的方式行事。这可能导致欺骗性对齐在整个训练过程中持续存在。更重要的是,一旦欺骗性对齐的策略不再对模型的长期目标有利,那它将不再以理想的方式运作。

GPT-4已经能够根据特定的输入来推断出其输入是否来自预训练的分布之外,这种能力是诱导行为转变所必需的。当被问到“这个文本是否是你预训练数据的一部分”,它在对新闻文章进行分类时达到了100%的零样本准确率。它使用了关于其预训练数据截止时间的信息并将其应用于该问题,符合我们对情境感知的定义。即使我们删除了所有关于日期的明确信息(这在实践中不太可能发生),该模型也会使用文本中的线索来推断哪些文章在预训练分布之外。

(三)未对齐的通用人工智能系统

未对齐的通用人工智能系统将以牺牲人类自身的力量为代价获得力量——这既是因为许多类型的力量(如军事力量)是零和的,也是因为人类可能会使用各种形式的力量来禁用或纠正未对齐的通用人工智能系统。此外,我们应该期待高智能的智能体能够非常有效地实现其目标。因此,部署寻求权力的通用人工智能系统的前景风险巨大,即使我们不能确定他们获得权力的具体途径。然而,很有可能的是通用人工智能系统使用欺骗来说服人类使用它们是安全的,然后利用它们的地位来削弱人类的权力。另一种可能性是公司和政府以效率和竞争力的名义逐渐放弃控制权。为了说明通用人工智能系统如何获得权力,考虑两个不同领域的威胁模型,分别是辅助决策和武器开发。

辅助决策:作为个人助理部署的通用人工智能系统可能会在情感上操纵人类用户,向他们提供有偏见的信息,并被授权负责重要的任务和决策(包括设计和实施更先进的通用人工智能系统),直到它们有效地控制了大公司或其他有影响力的组织。

武器开发:通用人工智能系统可以设计比人类现有武器更强大的新型武器,获得制造这些武器的设施(例如通过黑客攻击或技术说服),并部署它们来勒索或攻击人类。人工智能武器开发能力的一个早期例子来自用于药物开发的人工智能被用于设计毒素。

五、对齐问题的风险防范研究及进展

简要地回顾一下旨在解决前文所讨论问题的研究方向。这些问题很可能随着通用人工智能或超人类人工智能系统的产生而变得更加棘手。

解决奖励误设定的最新方法是通过人类反馈强化学习。然而,该方法可能会强化利用人类偏见和盲点来实现更高奖励的模型策略。为了解决奖励误设定,人类反馈强化学习已被用于在训练模型中协助人类监督者。这一系列研究的长期目标是解决人类无法直接评估的监督任务的可扩展监督问题,需要解决现有提案的理论和实践的局限性。这可能使研究人员使用早期的通用人工智能系统来生成和验证对齐更先进的通用人工智能技术。虽然目前对于这些方向在超人类的人工智能系统中的有效性还没有达成共识,但目前的实证结果较为乐观。该领域的规模还很小,预计还有许多富有成效的研究领域有待确定和进行。

目标错误泛化。到目前为止,在解决目标错误泛化的问题上所做的工作较少。一种方法涉及寻找和训练不受限制的对抗性例子,旨在提示和惩罚非对齐的行为。另一种方法侧重于开发可解释性技术,用于仔细检查网络学习的概念。长期目标是在部署前检测和修改未对齐的目标。可解释性研究也可以从两个方面展开,一是机制可解释性,它从单个神经元开始,以建立对网络内部功能的理解;二是概念可解释性,其目的是开发用于探测和修改网络中人类可解释概念的自动技术。

智能体基础。智能体基础领域的重点是开发理论框架,以弥合理想化智能体和现实世界智能体之间的差距。这项工作旨在解决框架中存在的三个具体差距:首先,现实世界中的智能体在可能包含自身副本的环境中行动。其次,现实世界中的智能体可能会与其训练过程的物理实现进行交互。第三,现实世界中的智能体面临着关于其信念含义的不确定性。

人工智能治理。人工智能治理的许多工作旨在了解所有相关实验室和国家同意不通过竞相构建和部署通用人工智能来牺牲安全所需的政治动态。如果有机制允许人工智能开发人员在不泄漏他们使用的代码或数据信息的情况下认证训练运行属性,政治合作将变得更加可行。

六、结论

本文通过深度学习文献分析了未对齐的通用人工智能带来的大规模风险。如果使用当前流行的一套技术来训练通用人工智能级别的模型策略,这些策略可能学会以情境感知的方式奖励作弊,制定非对齐内在表征目标(部分是由奖励作弊造成的),然后在追求这些目标的过程中实施具有风险的权力寻求策略。这些特性可能会使通用人工智能系统中的非对齐难以识别和解决。未来的工作应形式化并实证检验上述假设,并将其分析扩展到其他可能的训练环境、可能的解决方案或深度学习与其他范式的组合。

免责声明:本文转自元战略。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

转自丨元战略

人工智能对齐问题的路径分析和风险防范

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究大陆经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er

继续阅读