這是一篇全面介紹大語言模型（LLMs）對齊的最新論文。

——

該論文深度探讨了對齊研究的不同方面，包括資料收集、訓練方法以及模型評估等……！

一、引言

近年來,大型語言模型(LLM)在廣泛的自然語言處理任務中表現出色,但也存在一些局限性,如誤解人類指令、生成偏見内容或虛構資訊。是以,學習人類目标和期望的LLM【對齊技術】成為一個活躍的研究方向。論文從資料采集、訓練方法和評估三個方面全面綜述了LLM對齊技術。

二、對齊資料采集

高品質對齊資料至關重要,可從人類和強大LLM獲得。

(一)人類指令

(二)強大LLM指令

(一)線上人類偏好訓練

PPO架構下通過獎勵模型學習人類偏好信号,RAFT簡化了該過程。

(二)離線人類偏好訓練

(三)參數高效訓練

隻訓練部分參數,降低計算成本。

(一)評估基準

包括封閉式基準，評估知識技能,開放式基準，評估開放域語言能力。

(二)評估範式

#頭條創作挑戰賽#