AI訓練後的孫燕姿火了，怎麼做訓練呢？著名歌手燕姿非常相似。孫燕姿唱着周傑倫的歌又火了，二十年前她火了，2003年她又火

作者：博學多才的人間鄭道 2023-05-30 15:02:00

AI訓練後的孫燕姿火了，怎麼做訓練呢？

著名歌手燕姿非常相似。孫燕姿唱着周傑倫的歌又火了，二十年前她火了，2003年她又火爆了全網。然而你知道嗎？這是AI訓練之後的孫燕姿，成本大概就不到500元。怎麼訓練？從5個重點給你講清楚怎麼用OpenAl來訓練像ChatGPT這樣的模型來訓練流程。

·1、使用人類回報的強化學習(RLHF)進行訓練。就好比是在養育孩子，孩子們可以通過搜尋世界、觀察世界的運轉方式進行學習。在這個過程中父母要及時的給他回報，告訴孩子什麼能做、什麼不能做、什麼不能參與。

嘗試以往父母可以在更少參與的情況下對孩子的行為産生極大的影響，這個東西就叫做(RLHF)習慣。

·2、叫預訓練(Pretraining)。這個階段模型在網際網路上有大量原始的文本經營訓練，試圖預測到下一個單詞。這些文本來自于各種各樣的來源，包括書籍、網頁、預訓練的模型等能夠了解和深沉的文本。在這個階段訓練需要大量的計算資源。

·3、叫監督微調(Supervised Finetuning)。在這個階段人類的訓練師也就是關鍵詞提示師，就需要對特定的問題和答案、對模型試圖預測的這些訓練師的回答，這可以幫助模型更好的了解回答各種問題。

·4、獎勵訓練(Reward Modeling)。在這個階段人類訓練師将對模型産生不同的問答進行比較，并且确定哪一個更好給他打分。相比于這些資料用于訓練的模型來預測的訓練師的偏好。

·5、叫強化學習。這個階段模型将使用上一階段訓練的獎勵模型生成更好的回答，模型會嘗試生成那些獲得更高獎勵、更高分的回答。得到的模型RL模型就是可以直接部署的。是以這個流程大概需要大量的計算資源以及資料和時間。

但是通過這個流程不光是Muing可以建立出各種複雜問題和強大的聊天助手。比如你想做一個你公司的客服人工智能就可以通過學關鍵詞，是以皓博士還整理了200個各行業的關鍵詞promote。如果你也需要可以在評論區回複："我要200關鍵詞"。

繼續閱讀