最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找的信息太少了。#大语言模型 #RLHF 最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找 最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找 最近刚开始做RLHF(从人类反馈中做强化学习),训练的最终的模型总是一团糟,这几个训练指标到底是不是正常的啊😥,网上能找