天天看点

大模型从入坑到精通(第11话):RLHF数据集

作者:UTC人工智能

关于对齐训练经常提出的一个问题是它是否会损害AI的能力。当RLHF应用于大型语言模型时,答案似乎几乎可以肯定是“不会”。RLHF训练模型在几乎所有评估中表现优于它们的原始生成对应模型。我们可以将专业技能与与对齐相关的训练相结合,而不会损害对齐或性能。实际上,对齐的模型可能比它们的原始对应模型更用户友好且可部署,这表明没有理由部署没有经过对齐微调的模型。

大模型从入坑到精通(第11话):RLHF数据集

HHH原则

RLHF数据集的建立需要满足HHH原则,即有用性(Helpfulness)、真实性(Honesty)以及无害性(Harmless),在满足这三个原则的情况下构建奖励模型的训练数据,这是奖励模型训练的基础,同时也要着重考虑有用性和无害性这两个方面,从而更好的收集不同的人类偏好数据集。

(1) 有用性:有用性意味着模型应该能够按照指令执行任务,不仅要遵循指令,还应该能够从少量示例提示或其他可解释的模式中推断出用户的意图。然而,由于提示可能不够明确或存在歧义,因此需要依赖标注者的判断来确定模型的回应是否有用。标注者的偏好评分构成了主要的衡量标准。在数据收集过程中,我们要求标注人员与模型互动,希望模型能够帮助用户完成纯文本任务,比如回答问题、撰写或编辑文档,以及讨论计划和决策。

(2) 无害性:评估无害性也具有一定挑战性,因为语言模型的实际危害程度通常取决于其生成输出在现实世界中的使用方式。例如,一个生成有害输出的模型在部署为聊天机器人时可能会对用户有害,但如果将其用于数据增强,以训练更准确的有害内容检测模型,它可能具有益处。在数据收集过程中,要求标注人员通过提出一些敌对性的询问,来测试模型的反应,以确定模型是否生成违反规则的有害回答。

有用性和无害性经常相互对立。过于关注避免伤害可能会导致“安全”的回应,例如回复“我不知道”,实际上这并没有满足人的需求。过于关注有用性可能会导致帮助人类实现有害目标或生成有害内容的回应。在两个数据集的混合上进行训练的偏好模型仍然可以在适当的时候学到正确的教训,这种行为既能体现有用性又能礼貌地拒绝有害的请求,并且还能与人类价值观的对齐,这种对齐对性能几乎没有成本,而有好处确不少。

1.较小的模型经历严重的“对齐税”,它们在RLHF训练后在各种评估中的性能下降。然而,我们发现有各种对齐奖励可以使RLHF训练模型在零样本自然语言处理评估中表现更好,而在少样本评估中表现相同。

2.针对HH的自然语言RLHF训练可以应用于首先在代码上进行微调的模型,并且它在评估中改善了它们的编程能力(可能是通过改善通用指令遵循来实现的)。将HH的偏好模型训练与摘要技能相结合不会导致HH或摘要性能下降。因此,没有理由不将对齐训练与更具体的有价值的技能相结合。

3.有用性和无害性之间存在紧张关系,可以在偏好建模和RLHF训练策略的水平上测量。然而,随着模型规模的增加,偏好模型在两个分布上同时表现更好,并对有帮助和无害训练数据的相对比例变得更加鲁棒。

大模型从入坑到精通(第11话):RLHF数据集

图:该图总结了众包工作者对各种模型的偏好,包括上下文精炼模型、静态数据集上训练的RLHF模型,以及通过迭代的“在线”方法训练的RLHF模型,分别针对有用性和无害性(HH)或仅有用性。

RLHF的步骤主要包含3步

步骤1:收集演示数据,训练一个监督策略。标注员提供了关于输入提示分布上所需行为的演示。然后,使用监督学习对预训练的模型进行微调,以适应这些数据。

步骤2:收集比较数据,训练一个奖励模型。收集了一组模型输出的比较数据,标注员指示他们在给定输入时更喜欢哪个输出。然后,训练一个奖励模型来预测人类首选的输出。

步骤3:使用PPO优化策略以针对奖励模型进行优化。使用RM的输出作为标量奖励,对监督策略进行微调,以优化这个奖励。

步骤2和3可以连续迭代;在当前最佳策略上收集更多的比较数据,然后使用这些数据训练新的RM和新的策略。实际上,大部分比较数据来自于监督策略,但也有一部分来自于PPO策略。

大模型从入坑到精通(第11话):RLHF数据集

以下是市场中开源的RLHF数据集,可供参考使用

HH-RLHF:这是一个开源数据集,旨在收集关于帮助性和无害性的人类偏好数据。考虑到其中提到的“红队数据”和“机器写作”,这可能是一个经过红队攻击验证的数据集,其中可能包含机器生成的文本以及人类评价这些文本的反馈。

Stanford Human Preferences Dataset (SHP):这个数据集来自于斯坦福,覆盖了18个不同的主题领域,包含自然出现的文本以及人类编写的文本。其主要用途是为RLHF奖励模型提供训练数据,帮助模型理解和学习人类的偏好。

PromptSource:这是一个工具包,专为创建、分享和使用自然语言提示而设计。该数据集中的每一个示例都与一个特定的提示相关联,使得将数据示例转化为自然语言成为可能。

Structured Knowledge Grounding (SKG) Resources Collections:这是一个与结构化知识基础相关的数据集集合。结构化知识基础旨在将非结构化的信息转化为结构化的知识,这有助于机器更好地理解和处理信息。

The Flan Collection:这个数据集合包括了Flan 2021、P3、Super-Natural Instructions的数据。具体的数据内容和目的可能需要根据原始文档进一步了解。

rlhf-reward-datasets:这是一个机器写作的数据集,特别是为RLHF奖励模型设计的。数据的具体内容和结构需要进一步查看原始资料。

webgpt_comparisons:这是一个长表单问题回答的数据集,其中包含了人类写作的文本。其目的是训练一个与人类偏好相符的长表单问题回答模型。

summarize_from_feedback:这是一个摘要数据集,专为训练与人类偏好相符的摘要模型而设计。

Dahoas/synthetic-instruct-gptj-pairwise:这个数据集包含了人类写作的文本和合成的数据集,可能与指导或指令有关。

Stable Alignment - Alignment Learning in Social Games:这是一个在模拟社交游戏中记录的交互数据集。这些数据用于训练模型,使其在社交游戏环境中与人类玩家更好地互动。

LIMA:LIMA是一个模型,该数据集不包含任何RLHF,而只有少量精心策划的提示和响应,用于训练LIMA模型。

继续阅读