最近剛開始做RLHF(從人類回報中做強化學習),訓練的最終的模型總是一團糟,這幾個訓練名額到底是不是正常的啊😥,網上能找的資訊太少了。#大語言模型 #RLHF 最近剛開始做RLHF(從人類回報中做強化學習),訓練的最終的模型總是一團糟,這幾個訓練名額到底是不是正常的啊😥,網上能找 最近剛開始做RLHF(從人類回報中做強化學習),訓練的最終的模型總是一團糟,這幾個訓練名額到底是不是正常的啊😥,網上能找 最近剛開始做RLHF(從人類回報中做強化學習),訓練的最終的模型總是一團糟,這幾個訓練名額到底是不是正常的啊😥,網上能找