天天看點

UC伯克利測評:開源模型能力嚴重虛标?UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準:1、開源模型Lo

作者:AI研習所

UC伯克利測評:開源模型能力嚴重虛标?

UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準:

1、開源模型 LongChat-7B 和 LongChat-13B 🤖 ,具有高達 16K 令牌的級别的上下文能力。

2、以及 LongEval,用于測試長上下文聊天機器人的新基準。

令人驚訝的是[震驚],通過LongEval評估大語言模型處理長上下文任務的性能,測發現之前宣稱能支援長上下的開源模型幾乎水準都不怎麼樣,常常無法達到其承諾的上下文長度。

例如,Mpt-7b-storywriter聲稱具有84K的上下文長度,但即使在它聲稱的上下文長度的四分之一(16K)處,準确率也僅達到50%。Chatglm2-6B在長度為6K(46%準确率)時無法可靠地檢索第一個主題,當在大于10K的上下文長度上進行測試時,其準确率幾乎為0%。

反而商業閉源大模型的長上下文能力,是真的不錯,各個都很能打。

原文連結:How Long Can Open-Source LLMs Truly Promise on Context Lengt...

#人工智能##大模型#

UC伯克利測評:開源模型能力嚴重虛标?UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準:1、開源模型Lo
UC伯克利測評:開源模型能力嚴重虛标?UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準:1、開源模型Lo
UC伯克利測評:開源模型能力嚴重虛标?UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準:1、開源模型Lo

繼續閱讀