探索OpenLLMLeaderboard中的有趣问题：LLaMA模型的MMLU评估数字为什么那么低？最近在Twitter

探索Open LLM Leaderboard中的有趣问题：LLaMA模型的MMLU评估数字为什么那么低？

最近在Twitter上面也得到了很多的质疑，因为他用了一个叫MMLU的算法，huggingface的大语言开放的LLM的排行榜，都是基于自动化的测试来实现的。

有人发现LLAMA的模型在huggingface的排行榜上面的排名非常低，因为在这篇论文发布的时候，也是用了相同的MMALU的自动评估模式去评估模型的。但是发现有他们在论文发布的时候，这个模型的原始的得分要达到是在里面只有0.4830。

所以在吹的上就有很多人就开始去质疑huggingface的大型预预训练模型的排行榜，自动评估的方式是否有效，等于是这样。所以经常他们做了有很多的调查，那他就公布了这样一篇博客，那这篇博客里面就详细介绍了他的方法和为什么这个方法评估出来，他的得分差异是非常大的。

那我也仔细看了一下这篇文章，这篇文章里面前面讲的都很多，都是一些原理性的东西，就不看了。一方面前面解释是目前大训练的大模型，相对来讲都是通过概率的，所以它通过这种概率很有可能在abcd选择里面，有可能在理论上来讲也是有可能选错的，这种概率是比较高的。

最大的问题主要是出在歧视上面，因为在MMLU的评估上面，主要就是给你四个答案，ABCD，然后在四个答案里面去选择一个合适的答案。原始的实现它的提示是比较小的，它是我看了一下，这个地方是没有question的。没有choice的。

但是在最后的实现里面，他们会把AI的提示工程里面把道和choice都加上了，所以提示上面略微的差异就会导致大模型出来的结果。特别是LLama-65b的模型的差异就有差，准确率就有，差异程度就有超过30%等于是这样。

当然我看了一下其他的一般的模型差异没这么大，是LLama-65B的模型。它三种不同的提示方式，准确性的差异从0.63%，差异性是非常大的，等于是这样。所以当然这个也证明了模型就是提示工程对大型预训练模型的影响程度是非常高的。相同的问题不同的提示，稍微有些差异，那么准确度就是差异是非常大的。

尽管模型的预训类模型的参数都没有变化，但是如果提示不一样，最终的准确度就非常大，所以他们整个结论就是哈根费斯的排行榜。最后结论是这样的，他们目前的MMLU的自动的模型的比对的测试方案还是正确的，只是说提示的方式不太一样，会导致有些模型里面准确度的差异就会非常大，等于是这样。

所以他们认为，目前跟费是开源的，这样的大型的开源欲训练模型的排行榜，相对来讲还是比较公正和客观的。这个是他们的结论，他们也会纠正一下目前的提示工程，也会去修正一下提示工程，尽可能让提示工程让每一个模型都能够把能力给发挥出来，等于是这样。

所以这次在treat上面的比较大的争论，基本上就通过这个他们的博客，基本上就平息下去了，是这样的结论。

今天就聊到这个话题，我就跟大家聊到这。当然它目前在哈根face上排名第一的阿布扎比飞鹰杠40B的模型。其实它的准确度还是非常高，所以别人说他们这个模型确实是挺厉害的。

目前来看排行榜相对来讲，它的排名还是比较公正和客观的，有一定的参考依据。它等于是这样。

今天就跟大家就聊到这。

继续阅读