UC伯克利测评：开源模型能力严重虚标？UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准：1、开源模型Lo

作者：AI研习所 2023-07-01 21:17:00

UC伯克利测评：开源模型能力严重虚标？

UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准：

1、开源模型 LongChat-7B 和 LongChat-13B 🤖 ，具有高达 16K 令牌的级别的上下文能力。

2、以及 LongEval，用于测试长上下文聊天机器人的新基准。

令人惊讶的是[震惊]，通过LongEval评估大语言模型处理长上下文任务的性能，测发现之前宣称能支持长上下的开源模型几乎水平都不怎么样，常常无法达到其承诺的上下文长度。

例如，Mpt-7b-storywriter声称具有84K的上下文长度，但即使在它声称的上下文长度的四分之一（16K）处，准确率也仅达到50%。Chatglm2-6B在长度为6K（46%准确率）时无法可靠地检索第一个主题，当在大于10K的上下文长度上进行测试时，其准确率几乎为0%。

反而商业闭源大模型的长上下文能力，是真的不错，各个都很能打。

原文链接：How Long Can Open-Source LLMs Truly Promise on Context Lengt...

#人工智能##大模型#

继续阅读