天天看點

#chagpt##RLHF##大語言模型#在2022年OpenAI發表了論文“Traininglanguagemodel

作者:微說網際網路

#chagpt##RLHF##大語言模型#在2022年OpenAI發表了論文“Training language models to follow instructions with human feedback”, 結合人類回報資訊來訓練語言模型使其能了解指令,引出了一種訓練大語言模型的新範式:RLHF(基于人類回報的強化學習方式)。

RLHF技術使用了一種互動式學習方法,當模型生成一條文本時,它會請求使用者對其進行評估,例如問使用者是否覺得該文本合理、準确、有意義等等。通過分析使用者的回報,模型可以确定哪些方面需要改進,并嘗試生成更高品質的文本。

RLHF主要的訓練過程:

1. 預訓練一個語言模型 (LM) 。

2. 收集資料并訓練獎勵模型 (RM:Reward Model) 。

3. 用強化學習 (RL) 方式微調語言模型(LM)。

#chagpt##RLHF##大語言模型#在2022年OpenAI發表了論文“Traininglanguagemodel
#chagpt##RLHF##大語言模型#在2022年OpenAI發表了論文“Traininglanguagemodel
#chagpt##RLHF##大語言模型#在2022年OpenAI發表了論文“Traininglanguagemodel
#chagpt##RLHF##大語言模型#在2022年OpenAI發表了論文“Traininglanguagemodel

繼續閱讀