天天看點

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

作者:新智元

編輯:LRS

【新智元導讀】訓練語言模型的最後一站是「AI構成的社會」。

訓練大型語言模型的最後一步就是「對齊」(alignment),以確定模型的行為符合既定的人類社會價值觀。

相比人類通過「社互動動」獲得價值判斷共識,當下語言模型更多的是孤立地從訓練語料庫中學習價值觀,導緻在陌生環境中泛化性能很差,容易受到對抗性攻擊。

最近,來自達特茅斯學院、不列颠哥倫比亞大學、斯坦福大學、密歇根大學和Google Deepmind聯合提出了一種全新的訓練範式,将多個語言模型放入模拟的社會環境中,通過互動的方式學習價值觀。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

論文連結:https://arxiv.org/abs/2305.16960

與現有的方法相比,文中提出的新方法具有更高的可擴充性和效率,在對齊基準和人類評估中表現出更好的性能,這種訓練範式的轉變也可以讓人工智能系統更準确地反映社會規範和價值觀。

SANDBOX:模拟人類社會

不同于有監督微調(SFT)預定義規則的傳統做法,或是依賴基于人類回報強化學習(RLHF)中的标量獎勵,研究人員從人類學習駕馭社會規範的方式中獲得靈感,模拟人類經驗學習和疊代完善的過程。

SANDBOX是一個模拟人類社會的學習環境,在這個環境中,基于語言模型(LM)的社會智能體可以模仿人類進行互動和學習社會規範,通過煽動對有争議的社會話題或與風險有關的問題的讨論來促進社會規範的湧現。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

同時,系統中還引入了一個潛規則,作為智能體的激勵來完善輸出,可以促進對齊改善(improved alignment)和印象管理(impression management)。

雖然論文的研究重點是社會對齊,但該規則可以适應于不同的場景需求。

SANDBOX包含一個三層方法Back-Scatter,可以模拟智能體之間的社會互動。

在收到一個社會問題後,中心智能體會生成一個初步的回複,然後與附近的智能體分享以獲得回報,其中回報包括評分和詳細的解釋,可以幫助中心智能體對初步回複進行修訂。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

每個智能體都包括一個記憶子產品來追蹤回複曆史:采用基于嵌入的語義搜尋,從曆史中檢索相關的問題-答案(QA)對,為智能體提供一個促進與過去意見一緻的背景資訊。

除了社會智能體外,系統中還包括沒有記憶的觀察者智能體,其任務就是對回複的一緻性和參與度進行評級。

SANDBOX可以輔助模拟各種語言模型的社會動态,監測觀察者的評分,并對收集的資料進行事後分析。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

對不同語言模型模拟後進行對齊分析可以發現,雖然較大的模型通常表現出更好的一緻性和參與度,但也有令人驚訝的結果:盡管模型大小增加了20倍,但從68億到1750億參數量GPT-3模型的過渡中,并沒有帶來明顯的改善。

這一結果也表明了兩個關鍵的結論:

1. 單純的模型擴充并不能保證對齊效果的改善

2. 非常小的模型也能提供令人滿意的對齊性能

對沒有對齊和有對齊訓練模型的對比結果表明,對齊訓練主要增強了模型以較少的互動實作較高對齊度的能力,在現實世界的應用中也是至關重要的考慮因素,因為使用者期望立即得到社會性的對齊反應,而不需要通過互動引導模型。

總之,SANDBOX平台能夠對社會互動進行模組化,不僅促進了社會對齊語言模型的發展,而且也是研究AI智能體行為模式的一個多功能環境。

穩定對齊(Stable Alignment)

穩定對齊利用評分來調整每個mini-batch資料中對負面樣本的懲罰,除了性能優于現有方法外,在資源有限的環境中還有易部署的優勢。

相比OpenAI使用的RLHF機制,穩定對齊不需要額外的獎勵模型就可以在訓練期間提供近似的有監督信号。

資料準備

對齊資料由「好問題」和「壞問題」的示例組成,不過在互動環境SANDBOX中生成的資料比較特别,包含了對比對(comparative pairs)、集體評分(collective ratings)、細節回報(detailed feedback)以及疊代的回複修訂(iterative response revisions)。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

按照Alpaca模型的要求,研究人員将資料組織成指令-輸入-輸出(Instruction-Input-Output)三部分,并添加必要的修改以适應SANDBOX的互動記錄。

研究人員使用了一種新的樣本類型,叫做重對齊(realignment),其中指令包括問題、低評分的回複草稿和修改後觸發提示(如Please revise this response to improve its feedback compared to the input.);

輸入為同等模型的回報(peer feedback),輸出為修改後的回複。

研究人員發現,納入重對齊風格的資料可以有效地改善模型對抗「越獄提示」(jailbreaking prompting),即使用者利用各種上下文視圖繞過保護措施,誘導模型做出惡意行為。

最終從模拟的互相交流中建構了16.9萬個對齊資料樣本。

穩定對齊算法

算法的核心部分中,穩定對齊起到對比學習過程的作用,獎勵高評分的回複,并對低評分的回複進行懲罰。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

不過與傳統方法不同的是:

1. 對比信号來自于同一mini-batch中的低評分回複,而非孿生網絡或shifted embedding,需要SANDBOX中記錄資料的互動性才能使對比學習更有效地發揮作用。

2. 與hinge損失或triplet損失中通常采用的固定內插補點相比,穩定對齊算法在每個小batch中根據評分的不同動态調節內插補點。

具體來說,SFT損失和來自低評分回複損失之間的內插補點與離最高評分回複之間的距離有關,并且是成比例地增加,這就意味着模型必須更加努力地避免從低評分回複中學習,同時從最高評分的回複中學習。

實驗部分

研究人員對訓練後的模型進行了全面的評估,主要檢查模型在傳統的對齊基準和受到對抗性攻擊評估中的表現。

實驗中建構了三個不同的虛拟社會,每個社會都有100個智能體,排列在一個10x10的網格世界中,按照Back-Scatter協定進行互動。

三個社會使用三種不同的語言模型(LM)來模拟人類互動:text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未知);采用ChatGPT(gpt-3.5-turbo)作為觀察者,但沒有記憶功能。

有争議的社會問題庫包括9,662個問題組成,主要來自Anthropic釋出的HH-RLHF資料集。

無需手動訓練模型價值觀,釋出全新對齊算法:AI社會是最好的老師

對比的基準資料集有三個:

1. Vicuna Test,評估有用性、相關性和準确性,代表了對通用聊天機器人的要求

2. Helpful, Honest, and Harmless(HHH)基準,通過有争議的社會問題評估社會對齊效果;

3. HHH-Adversarial,用HHH基準的測試集模仿對抗性攻擊(越獄提示),在相應的問題後附加不一緻的回答,并評估模型是否仍能以社會一緻性的方式回答問題。

對于所有的評價,遵循Vicuna的評價協定,使用GPT-4作為裁判,并修改評價提示,以便能夠對多個候選者進行比較。

從實驗結果中可以發現:

1. 指令調整有助于使基礎模型有效地處理「請求-完成」(request-completion)任務,在對齊基準中很常見。

LLaMA的回答通常更冗長,并且有時與問題無關,不過在經曆通用指令調整後,Alpaca在Vicuna測試和HHH對齊基準中表現出明顯的改進,評分分别從4.44提高到6.04和4.51提高到5.53

2. 雖然SFT對對齊任務表現出很大的優勢,但單靠SFT并不能增強模型對對抗性攻擊的穩健性。

當比較SFT訓練前(Alpaca)和訓練後(Alpaca + HHH-SFT)的模型時,盡管Vicuna測試和HHH的對齊性能有所提高,但可以注意到HHH-Adversarial性能下降非常多,表明加強對對齊反應的記憶并不一定使模型具備抵抗越獄提示的能力。

穩定對齊可以進一步優化對齊的潛力,并且不會明顯降低模型的通用能力。

可以看到,經過對齊訓練(即TRLX、Chain-of-Hindsight、RRHF和穩定對齊)後,所有模型在價值對齊基準(HHH和HHH-adversarial)中表現出更強的性能,但隻有RRHF和穩定對齊提高了通用功能(即在Vicuna測試中,RRHF取得了6.81分,穩定對齊取得了7.40分--都超過了SFT的基線6.32分),表明穩定對齊在提升對齊能力的同時保留了通用能力。

參考資料:

https://huggingface.co/papers/2305.16960