天天看点

AI训练后的孙燕姿火了,怎么做训练呢?著名歌手燕姿非常相似。孙燕姿唱着周杰伦的歌又火了,二十年前她火了,2003年她又火

作者:博学多才的人间郑道

AI训练后的孙燕姿火了,怎么做训练呢?

著名歌手燕姿非常相似。孙燕姿唱着周杰伦的歌又火了,二十年前她火了,2003年她又火爆了全网。然而你知道吗?这是AI训练之后的孙燕姿,成本大概就不到500元。怎么训练?从5个重点给你讲清楚怎么用OpenAl来训练像ChatGPT这样的模型来训练流程。

·1、使用人类反馈的强化学习(RLHF)进行训练。就好比是在养育孩子,孩子们可以通过搜索世界、观察世界的运转方式进行学习。在这个过程中父母要及时的给他反馈,告诉孩子什么能做、什么不能做、什么不能参与。

尝试以往父母可以在更少参与的情况下对孩子的行为产生极大的影响,这个东西就叫做(RLHF)习惯。

·2、叫预训练(Pretraining)。这个阶段模型在互联网上有大量原始的文本经营训练,试图预测到下一个单词。这些文本来自于各种各样的来源,包括书籍、网页、预训练的模型等能够理解和深沉的文本。在这个阶段训练需要大量的计算资源。

·3、叫监督微调(Supervised Finetuning)。在这个阶段人类的训练师也就是关键词提示师,就需要对特定的问题和答案、对模型试图预测的这些训练师的回答,这可以帮助模型更好的理解回答各种问题。

·4、奖励训练(Reward Modeling)。在这个阶段人类训练师将对模型产生不同的问答进行比较,并且确定哪一个更好给他打分。相比于这些数据用于训练的模型来预测的训练师的偏好。

·5、叫强化学习。这个阶段模型将使用上一阶段训练的奖励模型生成更好的回答,模型会尝试生成那些获得更高奖励、更高分的回答。得到的模型RL模型就是可以直接部署的。所以这个流程大概需要大量的计算资源以及数据和时间。

但是通过这个流程不光是Muing可以创建出各种复杂问题和强大的聊天助手。比如你想做一个你公司的客服人工智能就可以通过学关键词,所以皓博士还整理了200个各行业的关键词promote。如果你也需要可以在评论区回复:"我要200关键词"。

AI训练后的孙燕姿火了,怎么做训练呢?著名歌手燕姿非常相似。孙燕姿唱着周杰伦的歌又火了,二十年前她火了,2003年她又火
AI训练后的孙燕姿火了,怎么做训练呢?著名歌手燕姿非常相似。孙燕姿唱着周杰伦的歌又火了,二十年前她火了,2003年她又火
AI训练后的孙燕姿火了,怎么做训练呢?著名歌手燕姿非常相似。孙燕姿唱着周杰伦的歌又火了,二十年前她火了,2003年她又火
AI训练后的孙燕姿火了,怎么做训练呢?著名歌手燕姿非常相似。孙燕姿唱着周杰伦的歌又火了,二十年前她火了,2003年她又火

继续阅读