UC伯克利測評：開源模型能力嚴重虛标？UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準：1、開源模型Lo

作者：AI研習所 2023-07-01 21:17:00

UC伯克利測評：開源模型能力嚴重虛标？

UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準：

1、開源模型 LongChat-7B 和 LongChat-13B 🤖 ，具有高達 16K 令牌的級别的上下文能力。

2、以及 LongEval，用于測試長上下文聊天機器人的新基準。

令人驚訝的是[震驚]，通過LongEval評估大語言模型處理長上下文任務的性能，測發現之前宣稱能支援長上下的開源模型幾乎水準都不怎麼樣，常常無法達到其承諾的上下文長度。

例如，Mpt-7b-storywriter聲稱具有84K的上下文長度，但即使在它聲稱的上下文長度的四分之一（16K）處，準确率也僅達到50%。Chatglm2-6B在長度為6K（46%準确率）時無法可靠地檢索第一個主題，當在大于10K的上下文長度上進行測試時，其準确率幾乎為0%。

反而商業閉源大模型的長上下文能力，是真的不錯，各個都很能打。

原文連結：How Long Can Open-Source LLMs Truly Promise on Context Lengt...

#人工智能##大模型#

繼續閱讀