豐色發自凹非寺

量子位 | 公衆号 QbitAI

ChatGPT中有這樣一個核心訓練方法，名叫“人類回報強化學習（RLHF）”。

它可以讓模型更安全、輸出結果更遵循人類意圖。

現在，來自谷歌Research和UC伯克利的研究人員發現，将該方法用在AI繪畫上，“治療”圖像跟輸入不完全比對的情況，效果也奇好——

可以實作高達47%的改進。

△ 左為Stable Diffusion，右為改進後效果

這一刻，AIGC領域中兩類大火的模型，似乎找到了某種“共鳴”。

如何将RLHF用于AI繪畫？

RLHF，全稱“Reinforcement Learning from Human Feedback”，是OpenAI和DeepMind于2017年合作開發的一種強化學習技術。

正如其名，RLHF就是用人類對模型輸出結果的評價（即回報）來直接優化模型，在LLM中，它可以使得“模型價值觀”更符合人類價值觀。

而在AI圖像生成模型中，它可以讓生成圖像與文本提示得到充分對齊。

具體而言，首先，收集人類回報資料。

在這裡，研究人員一共生成了27000餘個“文本圖像對”，然後讓一些人類來打分。

為了簡單起見，文本提示隻包括以下四種類别，分别關乎數量、顔色、背景和混合選項；人類的回報則隻分“好”、“壞”與“不知道（skip）”。

其次，學習獎勵函數。

這一步，就是利用剛剛獲得的人類評價組成的資料集，訓練出獎勵函數，然後用該函數來預測人類對模型輸出的滿意度（公式紅色部分）。

這樣，模型就知道自己的結果究竟有幾分符合文本。

除了獎勵函數，作者還提出了一個輔助任務（公式藍色部分）。

也就是當圖像生成完成後，模型再給一堆文本，但其中隻有一個是原始文本，讓獎勵模型“自己檢查”圖像是否跟該文本相比對。

這種逆向操作可以讓效果得到“雙重保險”（可以輔助下圖中的step2進行了解）。

最後，就是微調了。

即通過獎勵權重最大似然估計（reward-weighted likelihood maximization）（下公式第一項），更新文本-圖像生成模型。

為了避免過拟合，作者對預訓練資料集上的NLL值（公式第二項）進行了最小化。這種做法類似于InstructionGPT (ChatGPT的“直系前輩”）。

效果提升47%，但清晰度下滑5%

如下一系列效果所示，相比原始的Stable Diffusion，用RLHF微調過後的模型可以：

（1）更正确地get文本裡的“兩隻”和“綠色”；

（2）不會忽略“大海”作為背景的要求；

（3）想要紅老虎，能給出“更紅”的結果。

從具體資料來看，微調後的模型人類滿意度為50%，相比原來的模型（3%），得到了47%的提高。

不過，代價是失去了5%的圖像清晰度。

從下圖我們也能很清楚的看到，右邊的狼明顯比左邊的糊一些：

對此，作者表示，使用更大的人類評價資料集和更好的優化 (RL) 方法，可以改善這種情況。

關于作者

本文一共9位作者。

一作為谷歌AI研究科學家Kimin Lee，南韓科學技術院博士，博士後研究在UC伯克利大學展開。

華人作者三位：

Liu Hao，UC伯克利在讀博士生，主要研究興趣為回報神經網絡。

Du Yuqing，同UC伯克利博士在讀，主要研究方向為無監督強化學習方法。

Shixiang Shane Gu (顧世翔)，通訊作者，大學師從三巨頭之一Hinton，博士畢業于劍橋大學。

△ 顧世翔

值得一提的是，寫這篇文章時他還是谷歌人，如今已經跳槽至OpenAI，并在那裡直接向ChatGPT負責人報告。

論文位址：

https://arxiv.org/abs/2302.12192

參考連結：

[1]https://twitter.com/kimin_le2/status/1629158733736718336

[2]https://openai.com/blog/instruction-following/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

ChatGPT核心方法可用于AI繪畫，效果飛升47%

如何将RLHF用于AI繪畫？

效果提升47%，但清晰度下滑5%

關于作者

繼續閱讀

OC 的核心方法總結

實操100+場「社群裂變」活動，我總結出了小白變大神的“核心方法論”

Canvas點選元素檢測的二種核心方法介紹

【中考數學：動點路徑問題】🍒🍒🍒動點路徑問題中，核心方法是尋找定點、定線、定長、定角等，再根據線與圓的基本概念及基本性質

解密華為從戰略到執行的核心方法論——BLM模型

MACD是名額之王，但用得好的人不多，今天分享兩個簡單實用的MACD實用技巧，成功機率比較穩定，有興趣的朋友可以參考一下

排列組合的核心方法是分類加列舉，在數列中求首項是一個踩分點。

排列組合的原則是先組合後排列，優先滿足三個特殊（元素、位置、要求），核心方法是分類+列舉。

米村區域合夥人一年能夠複制100家店，核心方法是第一要确定核心營運團隊，第二是選拔招聘人才，一定要是成熟型人才，比如區域

vue diff 核心方法 updateChildren - 帶圖文

又快又靠譜的銷售成長法。三個月做到銷冠，我分享一套最佳實踐，三個步驟。·首先抓住做好業績的核心資料名額，團隊裡面做的最好

北美洲全新世人口的時空分布。利用同時解決采樣和地層學偏差的統計方法，提供了所知道的過去13000年人類遷入美洲後古人口增

能源法對能源轉型和能源研究的貢獻引言：本文的必要性源于一個沒有争議且經常重複的論點：能源轉型隻能通過綜合和跨學科而不是孤

流量的底層邏輯：1、穩定10萬播放的4個關鍵：2、100%起号的底層邏輯：3、真正撬動自然流量的核心方法：4、1個核心内