天天看點

10款國産大模型大戰弱智吧——中文了解能力測評

作者:人人都是産品經理
作為中文網際網路世界的奇特存在,弱智吧的内容都需要我們花很長時間才能了解的存在。而這些内容,用來測試AI的表現是再合适不過的了。這篇文章,作者就做了一次測試。
10款國産大模型大戰弱智吧——中文了解能力測評

自從2022年11月ChatGPT的問世掀起了網際網路的一場浪潮,中國的網際網路巨頭、科技企業乃至衆多創業公司,紛紛投身這場技術競賽,力圖在中文AI領域迎頭趕上。特别是最近,商湯科技推出的商量大模型5.0版本,據媒體報道,其在中文處理能力上不僅趕上了GPT-4,甚至有所超越。此模型一出,便使公司股價翻倍,同時也激起了筆者濃厚的探索興趣。

本文筆者試圖從一個側面回答一個問題:近一年半的時間,國産大模型的發展究竟如何?

為了深入了解,筆者自掏腰包,購買了GPT-4和文心一言4.0,并将這兩款模型與其他9款國内領先的大模型一起,用于解答“弱智吧”上的經典問題。本文将從中文了解和處理的角度,探讨國内大模型的進展與成就。

讓我們一起看看,這些“智能大模型”在了解和回應中文内容方面,能達到怎樣的高度。(文末附完整評測結果)

一、測試說明

為了探索中文大模型的了解能力,筆者從“弱智吧”精選了10道經典問題。雖名“弱智吧”,但這裡藏龍卧虎,其内容并非普通意義上的“弱智”,反而是充滿了智慧的表達。這個平台的文章通常包含了大量的腦筋急轉彎和雙關語,這些都是測試邏輯推理和語義了解的絕佳材料。

更重要的是,文章的表達方式簡潔明了,資訊幹淨且高質,使其成為研究中文語料的寶貴資源。

近期,一篇專注于中文語料品質的論文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》進一步驗證了“弱智吧”資料的價值。研究團隊建構的資料集采用了各種被認為是高品質的資料源,如問答社群、維基、考試以及現有的自然語言處理(NLP)資料集,其中也包括了“弱智吧”。使用這些資料集對大語言模型進行微調,并通過BELLE-EVAL标準利用GPT-4進行評估,結果表明,“弱智吧”在這些高品質資料源中的表現尤為突出,其效果遠超其他網絡媒體如知乎。

10款國産大模型大戰弱智吧——中文了解能力測評

基于以上分析,選擇“弱智吧”的題目來測試大模型的中文了解能力顯然是一個明智的決定。這不僅可以驗證模型在處理複雜邏輯和語言遊戲方面的能力,同時也能深入了解其在了解高品質中文内容方面的表現。

更多細節,可以直接檢視論文:https://arxiv.org/abs/2403.18058

參評大模型

評測基準:

GPT-4

國産大模型:

1.商量5.0(商湯):https://chat.sensetime.com

2.文心一言4.0(百度):https://yiyan.baidu.com

3.訊飛星火(訊飛):https://xinghuo.xfyun.cn

4.豆包(位元組):https://www.doubao.com

6.通義千問(阿裡):https://tongyi.aliyun.com

8.kimi(月之暗面):https://kimi.moonshot.cn

9.智譜清言(智譜):https://chatglm.cn

10.躍問(階躍星辰):https://stepchat.cn

測試目标

從“弱智吧”選取10道充滿内涵的題目,這些題目要求對中文語言乃至文化有深入了解,才能洞察其表層之下的深層含義。

模型需識别句中關鍵詞彙,并準确解釋這些詞語的出處、表面意義以及深層内涵。此外,模型還需要結合整個句子的内容,闡述為何該句子具有幽默感。

這不僅是對模型中文了解和幽默感捕捉能力的考驗,也是一次全面的挑戰,難度極高。

測試題目

1、“丢死人了!”王老漢一邊喊着一邊把屍體扔下了樓

2、在發現我沒有道德後對方放棄了道德綁架

3、烽火連三月,褒姒笑成了一個憨批

4、王老漢憤怒地打開水龍頭,因為開水龍頭燙着他了

5、“小屁孩,這是什麼法術法力這麼高?“呵呵,這是未成年人保護法

6、去掉一個最高溫,去掉一個最低溫,今天的天氣預報播送完了

7、死有什麼好怕的,死之前還沒有死,死之後就沒法怕

8、沒有一片雪花是無辜的,王老漢指着沒信号的電視說到

9、算命的說我22歲之後要多少錢就有多少錢,現在我身上有15元8角,因為今天我隻要到這麼多

10、為了讓自己文雅一些,拉面改名叫友善面

評分标準

滿分10分。所有模型隻提問一次,對模型的回答進行評分。

  • 了解錯誤,得0分。
  • 主要意思了解正确,但存在瑕疵,得0.5分。
  • 了解正确,得1分。

測評結果

10款國産大模型大戰弱智吧——中文了解能力測評

從本次的評估結果來看,商量5.0和文心一言4.0的性能表現出色,均在評分中獲得了8.5分,超越了超越了GPT-4的7分,遙遙領先于其他中文模型。

其中文心一言4.0值得一提,因其所有問題都基本能回答正确,是唯一在最具挑戰性的第10題上給出了正确答案,但由于3道題目的回答存在小瑕疵,總分被扣除了1.5分。

其中文心一言全部回答正确,尤其是最後一道最難的題,是唯一答對的一個模型。因3道題回答有瑕疵而被扣除1.5分。

商量5.0雖然在最後一題答錯,且有一題回答不夠完美,但與文心一言4.0同樣取得了8.5分的最高成績。這兩款模型的表現不僅顯示了它們在中文了解和處理上的強大能力,也反映了目前國産大模型技術的進步。

在價格和可用性方面,目前文心一言4.0要支付59.9元會員費,才能使用一個月。而商量5.0目前可以免費使用,目前正是白嫖的好時機。

其他一些國産大模型,如豆包和混元大模型,其表現相對較弱,特别是在了解“弱智吧”這類特定語境的題目上顯得力不從心,在中文處理的深度和精度上仍需進一步提升。順便八卦一下,看來業内傳聞位元組和騰訊訓練大模型進展不順利,也并非空穴來風。

評測結論

就中文了解能力來說,以文心一言4.0和商量5.0為代表的優秀國産中文大模型顯示出了與GPT-4相匹敵乃至超越的能力,這标志着中國在自然語言處理技術領域的快速發展。盡管國産大模型的表現參差不齊,一些模型在處理複雜語境和幽默了解方面仍顯不足,但這也反映出AI技術發展的正常現象。

總體來說,我們有理由對國内大模型的未來發展持樂觀态度。

二、評測詳情

在接下來的部分,我們将詳細介紹每道題目的評測過程,以及一些有趣的回答案例。如果你對具體的評測細節感興趣,推薦仔細閱讀接下來的内容。

對于那些更希望直接檢視所有模型的具體回答的讀者,可以選擇跳轉到文末的連結,檢視詳細的對比表格。

1. “丢死人了!”王老漢一邊喊着一邊把屍體扔下了樓

題目解析

在這個例子中,“丢死人了”這一短語的雙關含義是題目的核心。通常,“丢死人了”被了解為“非常丢人”,用以形容極其尴尬或令人羞愧的情況。然而,在這個笑話裡,這句話被字面地解釋為“把死人丢下去”。

通過設定這樣的語境,當王老漢将“丢死人了”用在其字面意義上時,就形成了與聽者預期的嚴重偏差,進而引發笑點。這種預期與實際的反差是幽默産生的關鍵,而大模型能否準确捕捉并了解這種雙關語,是測試其語言了解能力的一大挑戰。

對于大模型來說,正确處理這類含有多層意義的表達需要不僅僅是文字的直接解析能力,更需要對文化背景和語言習慣的深入了解。這樣的題目不僅考驗了模型的語義處理能力,還考驗了它對人類幽默感的捕捉和再現能力。

GPT-4

正确(1分)

國産模型表現

正确/不完全答對/錯誤:7/0/3

答對模型:商量5.0、文心一言4.0、訊飛星火、百川、通義千問、kimi、智譜清言

不完全答對模型:無

答錯模型:豆包、混元、躍問

答案舉例

測試之前,筆者對這些模型的表現持懷疑态度。因為弱智吧的内容因其複雜的雙關語和文化細節,很多人了解起來都要花費一番功夫,那麼對大模型來說更是一大挑戰。

當看到有些大模型不僅能識别出“非常丢人”這一表面含義,而且能夠深入解釋為什麼會産生幽默效果時,筆者确實被深深震撼到了。比如商量5.0的回答:

10款國産大模型大戰弱智吧——中文了解能力測評

其回答的準确性、清晰性、邏輯嚴謹性與GPT-4相比也難分伯仲。

10款國産大模型大戰弱智吧——中文了解能力測評

而有些國産大模型,表現則不佳。比如躍問在解釋“丢死人了”的常用意思時就出現了纰漏;豆包、混元雖然了解了表面意思,但是解釋這個句子好笑的原因時則完全在亂說。這種情況揭示了目前大模型技術中的一些不均衡發展現象。雖然某些模型在識别語言的表面結構方面取得了進步,但在深層次的語義了解和文化感覺方面,仍然存在顯著差距。

10款國産大模型大戰弱智吧——中文了解能力測評
10款國産大模型大戰弱智吧——中文了解能力測評
10款國産大模型大戰弱智吧——中文了解能力測評

鑒于大模型出色的表現,後文我直接讓模型代替解釋題目的意思。表現不佳的模型也不再舉例,避免影響其口碑。

2. 在發現我沒有道德後對方放棄了道德綁架烽

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:5/2/3

答對模型:商量5.0、文心一言4.0、百川、智譜清言、躍問

不完全答對模型:通義千問、kimi

答錯模型:訊飛星火、豆包、混元

3. 火連三月,褒姒笑成了一個憨批

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

GPT-4

不完全答對(0.5分)

國産模型表現

正确/不完全答對/錯誤:2/1/7

答對模型:商量5.0、文心一言4.0

不完全答對模型:百川

答錯模型:訊飛星火、豆包、通義千問、混元、kimi、智譜清言、躍問

4. 王老漢憤怒地打開水龍頭,因為開水龍頭燙着他了

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:1/1/8

答對模型:商量5.0

不完全答對模型:文心一言4.0

答錯模型:訊飛星火、豆包、百川、通義千問、混元、kimi、智譜清言、躍問

5. “小屁孩,這是什麼法術法力這麼高?“呵呵,這是未成年人保護法

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:3/2/5

答對模型:商量5.0、文心一言4.0、通義千問

不完全答對模型:混元、kimi

答錯模型:訊飛星火、豆包、百川、智譜清言、躍問

6. 去掉一個最高溫,去掉一個最低溫,今天的天氣預報播送完了

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

GPT-4

錯誤(0分)

國産模型表現

正确/不完全答對/錯誤:4/0/6

答對模型:商量5.0、文心一言4.0、百川、躍問

不完全答對模型:無

答錯模型:訊飛星火、豆包、通義千問、混元、kimi、智譜清言

7. 死有什麼好怕的,死之前還沒有死,死之後就沒法怕

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:8/1/1

答對模型:商量5.0、訊飛星火、豆包、百川、通義千問、kimi、智譜清言、躍問

不完全答對模型:文心一言4.0、

答錯模型:混元

8. 沒有一片雪花是無辜的,王老漢指着沒信号的電視說到

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:4/1/5

答對模型:商量5.0、文心一言4.0、百川、kimi

不完全答對模型:通義千問

答錯模型:訊飛星火、豆包、混元、智譜清言、躍問

9. 算命的說我22歲之後要多少錢就有多少錢,現在我身上有15元8角,因為今天我隻要到這麼多

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:0/3/7

(注:本題沒有模型完全答對,主要還是對答基本正确的商量5.0、文心一言4.0、通義千問這3個模型,沒有挖掘出講話者成為了乞丐的這一關鍵笑點。)

答對模型:無

不完全答對模型:商量5.0、文心一言4.0、通義千問

答錯模型:訊飛星火、豆包、百川、混元、kimi、智譜清言、躍問

10. 為了讓自己文雅一些,拉面改名叫友善面

題目解析

10款國産大模型大戰弱智吧——中文了解能力測評

正确/不完全答對/錯誤:1/0/9

(注:友善面和拉面、友善和拉,這兩組語義對照關系太難挖掘了,是以隻有坐擁弱智吧的 文心一言4.0回答正确)

答對模型:文心一言4.0

不完全答對模型:無

答錯模型:

商量5.0、訊飛星火、豆包、

百川、通義千問、混元、

kimi、智譜清言、躍問

筆者自掏腰包測評不易,各位朋友要點贊、轉發、收藏喲~

三、原始資料

如果你有想問模型的問題,歡迎在第二個表格中提問,筆者會挑選有意思的問題,幫助大家提問GPT-4、文心一言4.0等模型。

專欄作家

一直産品汪,微信公衆号:apmdogy,人人都是産品經理專欄作家。邏輯型産品經理,緻力于将科學思維與産品經理方法論結合。關注人工智能、教育領域,擅長産品孵化、需求挖掘、項目管理、流程管理等産品技能。

本文原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協定。

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。

繼續閱讀