天天看點

大模型從入坑到精通(第11話):RLHF資料集

作者:UTC人工智能

關于對齊訓練經常提出的一個問題是它是否會損害AI的能力。當RLHF應用于大型語言模型時,答案似乎幾乎可以肯定是“不會”。RLHF訓練模型在幾乎所有評估中表現優于它們的原始生成對應模型。我們可以将專業技能與與對齊相關的訓練相結合,而不會損害對齊或性能。實際上,對齊的模型可能比它們的原始對應模型更使用者友好且可部署,這表明沒有理由部署沒有經過對齊微調的模型。

大模型從入坑到精通(第11話):RLHF資料集

HHH原則

RLHF資料集的建立需要滿足HHH原則,即有用性(Helpfulness)、真實性(Honesty)以及無害性(Harmless),在滿足這三個原則的情況下建構獎勵模型的訓練資料,這是獎勵模型訓練的基礎,同時也要着重考慮有用性和無害性這兩個方面,進而更好的收集不同的人類偏好資料集。

(1) 有用性:有用性意味着模型應該能夠按照指令執行任務,不僅要遵循指令,還應該能夠從少量示例提示或其他可解釋的模式中推斷出使用者的意圖。然而,由于提示可能不夠明确或存在歧義,是以需要依賴标注者的判斷來确定模型的回應是否有用。标注者的偏好評分構成了主要的衡量标準。在資料收集過程中,我們要求标注人員與模型互動,希望模型能夠幫助使用者完成純文字任務,比如回答問題、撰寫或編輯文檔,以及讨論計劃和決策。

(2) 無害性:評估無害性也具有一定挑戰性,因為語言模型的實際危害程度通常取決于其生成輸出在現實世界中的使用方式。例如,一個生成有害輸出的模型在部署為聊天機器人時可能會對使用者有害,但如果将其用于資料增強,以訓練更準确的有害内容檢測模型,它可能具有益處。在資料收集過程中,要求标注人員通過提出一些敵對性的詢問,來測試模型的反應,以确定模型是否生成違反規則的有害回答。

有用性和無害性經常互相對立。過于關注避免傷害可能會導緻“安全”的回應,例如回複“我不知道”,實際上這并沒有滿足人的需求。過于關注有用性可能會導緻幫助人類實作有害目标或生成有害内容的回應。在兩個資料集的混合上進行訓練的偏好模型仍然可以在适當的時候學到正确的教訓,這種行為既能展現有用性又能禮貌地拒絕有害的請求,并且還能與人類價值觀的對齊,這種對齊對性能幾乎沒有成本,而有好處确不少。

1.較小的模型經曆嚴重的“對齊稅”,它們在RLHF訓練後在各種評估中的性能下降。然而,我們發現有各種對齊獎勵可以使RLHF訓練模型在零樣本自然語言處理評估中表現更好,而在少樣本評估中表現相同。

2.針對HH的自然語言RLHF訓練可以應用于首先在代碼上進行微調的模型,并且它在評估中改善了它們的程式設計能力(可能是通過改善通用指令遵循來實作的)。将HH的偏好模型訓練與摘要技能相結合不會導緻HH或摘要性能下降。是以,沒有理由不将對齊訓練與更具體的有價值的技能相結合。

3.有用性和無害性之間存在緊張關系,可以在偏好模組化和RLHF訓練政策的水準上測量。然而,随着模型規模的增加,偏好模型在兩個分布上同時表現更好,并對有幫助和無害訓練資料的相對比例變得更加魯棒。

大模型從入坑到精通(第11話):RLHF資料集

圖:該圖總結了衆包工作者對各種模型的偏好,包括上下文精煉模型、靜态資料集上訓練的RLHF模型,以及通過疊代的“線上”方法訓練的RLHF模型,分别針對有用性和無害性(HH)或僅有用性。

RLHF的步驟主要包含3步

步驟1:收集示範資料,訓練一個監督政策。标注員提供了關于輸入提示分布上所需行為的示範。然後,使用監督學習對預訓練的模型進行微調,以适應這些資料。

步驟2:收集比較資料,訓練一個獎勵模型。收集了一組模型輸出的比較資料,标注員訓示他們在給定輸入時更喜歡哪個輸出。然後,訓練一個獎勵模型來預測人類首選的輸出。

步驟3:使用PPO優化政策以針對獎勵模型進行優化。使用RM的輸出作為标量獎勵,對監督政策進行微調,以優化這個獎勵。

步驟2和3可以連續疊代;在目前最佳政策上收集更多的比較資料,然後使用這些資料訓練新的RM和新的政策。實際上,大部分比較資料來自于監督政策,但也有一部分來自于PPO政策。

大模型從入坑到精通(第11話):RLHF資料集

以下是市場中開源的RLHF資料集,可供參考使用

HH-RLHF:這是一個開源資料集,旨在收集關于幫助性和無害性的人類偏好資料。考慮到其中提到的“紅隊資料”和“機器寫作”,這可能是一個經過紅隊攻擊驗證的資料集,其中可能包含機器生成的文本以及人類評價這些文本的回報。

Stanford Human Preferences Dataset (SHP):這個資料集來自于斯坦福,覆寫了18個不同的主題領域,包含自然出現的文本以及人類編寫的文本。其主要用途是為RLHF獎勵模型提供訓練資料,幫助模型了解和學習人類的偏好。

PromptSource:這是一個工具包,專為建立、分享和使用自然語言提示而設計。該資料集中的每一個示例都與一個特定的提示相關聯,使得将資料示例轉化為自然語言成為可能。

Structured Knowledge Grounding (SKG) Resources Collections:這是一個與結構化知識基礎相關的資料集集合。結構化知識基礎旨在将非結構化的資訊轉化為結構化的知識,這有助于機器更好地了解和處理資訊。

The Flan Collection:這個資料集合包括了Flan 2021、P3、Super-Natural Instructions的資料。具體的資料内容和目的可能需要根據原始文檔進一步了解。

rlhf-reward-datasets:這是一個機器寫作的資料集,特别是為RLHF獎勵模型設計的。資料的具體内容和結構需要進一步檢視原始資料。

webgpt_comparisons:這是一個長表單問題回答的資料集,其中包含了人類寫作的文本。其目的是訓練一個與人類偏好相符的長表單問題回答模型。

summarize_from_feedback:這是一個摘要資料集,專為訓練與人類偏好相符的摘要模型而設計。

Dahoas/synthetic-instruct-gptj-pairwise:這個資料集包含了人類寫作的文本和合成的資料集,可能與指導或指令有關。

Stable Alignment - Alignment Learning in Social Games:這是一個在模拟社交遊戲中記錄的互動資料集。這些資料用于訓練模型,使其在社交遊戲環境中與人類玩家更好地互動。

LIMA:LIMA是一個模型,該資料集不包含任何RLHF,而隻有少量精心策劃的提示和響應,用于訓練LIMA模型。

繼續閱讀