天天看點

ChatGPT核心方法可用于AI繪畫,效果飛升47%

作者:量子位

豐色 發自 凹非寺

量子位 | 公衆号 QbitAI

ChatGPT中有這樣一個核心訓練方法,名叫“人類回報強化學習(RLHF)”。

它可以讓模型更安全、輸出結果更遵循人類意圖。

現在,來自谷歌Research和UC伯克利的研究人員發現,将該方法用在AI繪畫上,“治療”圖像跟輸入不完全比對的情況,效果也奇好——

可以實作高達47%的改進。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

△ 左為Stable Diffusion,右為改進後效果

這一刻,AIGC領域中兩類大火的模型,似乎找到了某種“共鳴”。

如何将RLHF用于AI繪畫?

RLHF,全稱“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind于2017年合作開發的一種強化學習技術。

正如其名,RLHF就是用人類對模型輸出結果的評價(即回報)來直接優化模型,在LLM中,它可以使得“模型價值觀”更符合人類價值觀。

而在AI圖像生成模型中,它可以讓生成圖像與文本提示得到充分對齊。

具體而言,首先,收集人類回報資料。

在這裡,研究人員一共生成了27000餘個“文本圖像對”,然後讓一些人類來打分。

為了簡單起見,文本提示隻包括以下四種類别,分别關乎數量、顔色、背景和混合選項;人類的回報則隻分“好”、“壞”與“不知道(skip)”。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

其次,學習獎勵函數。

這一步,就是利用剛剛獲得的人類評價組成的資料集,訓練出獎勵函數,然後用該函數來預測人類對模型輸出的滿意度(公式紅色部分)。

這樣,模型就知道自己的結果究竟有幾分符合文本。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

除了獎勵函數,作者還提出了一個輔助任務(公式藍色部分)。

也就是當圖像生成完成後,模型再給一堆文本,但其中隻有一個是原始文本,讓獎勵模型“自己檢查”圖像是否跟該文本相比對。

這種逆向操作可以讓效果得到“雙重保險”(可以輔助下圖中的step2進行了解)。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

最後,就是微調了。

即通過獎勵權重最大似然估計(reward-weighted likelihood maximization)(下公式第一項),更新文本-圖像生成模型。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

為了避免過拟合,作者對預訓練資料集上的NLL值(公式第二項)進行了最小化。這種做法類似于InstructionGPT (ChatGPT的“直系前輩”)。

效果提升47%,但清晰度下滑5%

如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微調過後的模型可以:

(1)更正确地get文本裡的“兩隻”和“綠色”;

ChatGPT核心方法可用于AI繪畫,效果飛升47%

(2)不會忽略“大海”作為背景的要求;

ChatGPT核心方法可用于AI繪畫,效果飛升47%

(3)想要紅老虎,能給出“更紅”的結果。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

從具體資料來看,微調後的模型人類滿意度為50%,相比原來的模型(3%),得到了47%的提高。

不過,代價是失去了5%的圖像清晰度。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

從下圖我們也能很清楚的看到,右邊的狼明顯比左邊的糊一些:

ChatGPT核心方法可用于AI繪畫,效果飛升47%

對此,作者表示,使用更大的人類評價資料集和更好的優化 (RL) 方法,可以改善這種情況。

關于作者

本文一共9位作者。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

一作為谷歌AI研究科學家Kimin Lee,南韓科學技術院博士,博士後研究在UC伯克利大學展開。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

華人作者三位:

Liu Hao,UC伯克利在讀博士生,主要研究興趣為回報神經網絡。

Du Yuqing,同UC伯克利博士在讀,主要研究方向為無監督強化學習方法。

Shixiang Shane Gu (顧世翔),通訊作者,大學師從三巨頭之一Hinton,博士畢業于劍橋大學。

ChatGPT核心方法可用于AI繪畫,效果飛升47%

△ 顧世翔

值得一提的是,寫這篇文章時他還是谷歌人,如今已經跳槽至OpenAI,并在那裡直接向ChatGPT負責人報告。

論文位址:

https://arxiv.org/abs/2302.12192

參考連結:

[1]https://twitter.com/kimin_le2/status/1629158733736718336

[2]https://openai.com/blog/instruction-following/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀