天天看点

UC伯克利测评:开源模型能力严重虚标?UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准:1、开源模型Lo

作者:AI研习所

UC伯克利测评:开源模型能力严重虚标?

UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准:

1、开源模型 LongChat-7B 和 LongChat-13B 🤖 ,具有高达 16K 令牌的级别的上下文能力。

2、以及 LongEval,用于测试长上下文聊天机器人的新基准。

令人惊讶的是[震惊],通过LongEval评估大语言模型处理长上下文任务的性能,测发现之前宣称能支持长上下的开源模型几乎水平都不怎么样,常常无法达到其承诺的上下文长度。

例如,Mpt-7b-storywriter声称具有84K的上下文长度,但即使在它声称的上下文长度的四分之一(16K)处,准确率也仅达到50%。Chatglm2-6B在长度为6K(46%准确率)时无法可靠地检索第一个主题,当在大于10K的上下文长度上进行测试时,其准确率几乎为0%。

反而商业闭源大模型的长上下文能力,是真的不错,各个都很能打。

原文链接:How Long Can Open-Source LLMs Truly Promise on Context Lengt...

#人工智能##大模型#

UC伯克利测评:开源模型能力严重虚标?UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准:1、开源模型Lo
UC伯克利测评:开源模型能力严重虚标?UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准:1、开源模型Lo
UC伯克利测评:开源模型能力严重虚标?UC伯克利主导的lmsys.org上线了其开源模型及模型测评基准:1、开源模型Lo

继续阅读