天天看点

最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找

作者:长三角彭于晏

最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找的信息太少了。#大语言模型 #RLHF

最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找
最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找
最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找

继续阅读