UC伯克利測評:開源模型能力嚴重虛标?
UC伯克利主導的lmsys.org上線了其開源模型及模型測評基準:
1、開源模型 LongChat-7B 和 LongChat-13B 🤖 ,具有高達 16K 令牌的級别的上下文能力。
2、以及 LongEval,用于測試長上下文聊天機器人的新基準。
令人驚訝的是[震驚],通過LongEval評估大語言模型處理長上下文任務的性能,測發現之前宣稱能支援長上下的開源模型幾乎水準都不怎麼樣,常常無法達到其承諾的上下文長度。
例如,Mpt-7b-storywriter聲稱具有84K的上下文長度,但即使在它聲稱的上下文長度的四分之一(16K)處,準确率也僅達到50%。Chatglm2-6B在長度為6K(46%準确率)時無法可靠地檢索第一個主題,當在大于10K的上下文長度上進行測試時,其準确率幾乎為0%。
反而商業閉源大模型的長上下文能力,是真的不錯,各個都很能打。
原文連結:How Long Can Open-Source LLMs Truly Promise on Context Lengt...
#人工智能##大模型#