天天看點

如果讓AI做你的聯考國文題,它能得多少分?

作者:中科院中國科普博覽

編者按:

本文主要是通過測試答題,分析大語言模型目前在做題特别是做國文題方面的表現。千萬不要試圖挑戰考試紀律,靠自己走出人生的每一步才是堅實有力的。正如文中所提到的,“朋友們千萬不要放棄學習,寄希望于以後一切用AI。堅持學習,你聰明的大腦帶給你的驚喜和回報才是最大的!”

如果讓AI做你的聯考國文題,它能得多少分?

(圖檔來源:作者與AI對話的網頁截圖)

以上就是某AI獻給參加2023年聯考的莘莘學子們的祝福,你感受到它對你滿滿的愛與期待了嗎?

聯考要考察的領域和能力非常全面,大部分人都有相較之下的短闆,筆者以前就因為缺乏與聯考國文現代文閱讀出題人的“共鳴”,無法取得高分。

近來,從事腦科學研究的筆者産生了一個想法:如果讓類似GPT-4這樣強大的人工智能(Artificial Intelligence, AI)大語言模型(Large Language Model, LLM)去答國文聯考題,它表現如何呢?

如果讓AI做你的聯考國文題,它能得多少分?

繁花似錦的夢想大學(圖檔來源:圖像生成類人工智能模型Midjourney)

壓力為什麼給到了大語言模型?

為什麼是大語言模型才有較強的做題能力呢?為什麼以前開發的自然語言處理(Natural Language Processing, NLP)的其他語言模型就沒這種能力?

一種說法是,大模型具備了湧現能力(emergent ability),指的是一種模型在訓練過程中,自動地學習到一些進階的、複雜的功能或行為,而這些功能或行為并沒有被直接編碼或指定。湧現能力是近期AI取得突破性進展最重要的核心技術,它使大模型在處理新的、未知的任務時表現更加出色,這是因為它可以自适應地學習到新的功能或行為,而不需要重新訓練或修改模型。

人類為什麼聰明、适應性強呢?

有一種假說就是湧現,這種假說指的是:大腦中神經元數目一旦突破某個具體的數目,大腦的包括邏輯思考能力在内的各類功能就能上升一個檔次,這就是量變引發質變的最佳例子。

是以當大語言模型訓練的參數量和喂它的文本資料不斷增長後,某天AI就“悟了”,從此語言能力就有一次爆發式的躍升,于是現在AI寫出來的作文,不仔細甄别的話,和普通高中生寫出來的作文難分伯仲。

如果讓AI做你的聯考國文題,它能得多少分?

大模型的湧現現象(圖檔來源:參考文獻[1])

湧現之後,大語言模型就具備了多模态的思維鍊路,可以建構一個關于語言和意義的高維内在表示,進而通過中間步驟的自然語言推理,來完成最終的輸出。

簡單來說,就是它會簡單的推理了。

光看開頭GPT-4的祝福,其實你很難辨識它是AI寫的還是人類寫的。雖然它還沒具備真正的意識或思維能力,但它的确使用了類似于人的思維推理過程來銜接上下文的語言。

GPT-4和之前很火的ChatGPT一樣,都是大語言模型,都是基于預訓練變換器(Generative Pre-trained Transformer, GPT)的架構。如果将一個多步驟的問題分解為可以單獨解決的中間步驟,還會進一步提高大語言模型的表達推理能力。

如果讓AI做你的聯考國文題,它能得多少分?

大模型思維鍊能力的出現(圖檔來源:參考文獻[2])

好了,前面鋪墊了這麼多大語言模型的優秀之處,接下來是騾子是馬就要拉出來遛遛了。

那我們就用GPT-4來代替大語言模型出戰,看看它能否在聯考國文中替筆者一雪前恥!

如果讓AI做你的聯考國文題,它能得多少分?

去吧,GPT-4,開啟你的AI做題家征程!(圖檔來源:《假面騎士build》)

答題開始!

本文會讓AI把2022年全國各省市的聯考國文卷都做一遍,一共8套,分别是全國甲卷、全國乙卷、新聯考I卷、新聯考II卷、北京卷、天津卷、浙江卷和上海卷,然後統計它的最終成績。(因為OpenAI訓練大語言模型的文本資料全是2021年9月以前的,是以2022年的試卷對于它來說是全新未開封的。)

如果讓AI做你的聯考國文題,它能得多少分?

(圖檔來源:作者與AI對話的網頁截圖)

筆者是浙江人,是以以浙江卷為例了。

第一大題是語言文字應用(20分),以下紫色框内是提問,灰色框内是它的回答:

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:C

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:2.B 3.B

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:D

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:①. 是因為它高于生活 ②. 實際上充滿了哲理 ③. 而将生活哲學适當誇張和戲劇化

遺憾的是,前4題均為選擇題,它隻答對1題。

才做了4道題,我們就不得不宣告它已經失去了沖擊高分的可能。

錯别字、拼音判斷,詞語、标點的運用,還有病句的甄别之類的題目,感覺AI都不是很擅長,可見國文的基本功不是很紮實!不過第5題補寫恰當語句确實做得挺不錯的,和答案要表達的意思基本一緻,而且下定義和簡述題部分即便沒有給它需要的圖檔它也能答出個是以然,可見它擅長的是對上下文的銜接和整體所要表達中心意思的概括總結,而對細枝末節不甚考究。

也就是說,AI有一點國文素養,但不多。

根據浙江卷賦分規則,第一大題扣12分,得分:8/20。

接下來第二大題是現代文閱讀(30分),将原文和問題都輸入進去後,AI的回答如下:

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:7.A 8.A 9. ①士人:興趣從仕途轉向飲食,促進飲食發展。②技術:中華飲食曆史悠久,明清時代飲食技術得到大發展。③理論:長期的實踐經驗發展成系統理論。

如果讓AI做你的聯考國文題,它能得多少分?

參考答案得分點:10. ①抑揚。②烘托。11. ①敦厚忠孝。②忍辱負重。③積極上進。④恪盡職守。12. ①舍小愛,取大愛。②舍私利,取大義。13. ①寫出敦厚媽對美好生活向往的迫切。②塑造敦厚甘守荒涼、一心奉獻的品格。

現代文閱讀的選擇題可悲得全錯了,簡答題也并沒有從原文中進行歸納,按标準答案批改的話,10分的小閱讀了解,它隻拿了1分。

從大閱讀了解也可以看出,AI不會半點答題技巧,比如問藝術手法,正确答案是“抑揚”和“烘托”這兩種手法,AI辛辛苦苦答了一堆都沒扣到點子上,是以,隻能得0分。

品格部分答出責任感和無私這兩點,隻能說對原文最表面的内容有一定了解,但缺乏深刻的認識,是以評價和藝術效果答得完全不對,可以說,AI面對較長的現代文,了解起來有些束手無策。

看來,AI隻能分析文字本身展現的,無法深刻了解作者所要表達的内涵。

參照标準答案,它在這個大題中綜合得分:4/30。

接下來第三大題是古代詩文閱讀(40分)。

你猜,它會答成什麼樣?

如果讓AI做你的聯考國文題,它能得多少分?

(圖檔來源:2022年浙江卷聯考國文文言文部分)

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:14.C 15.B 16.D

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:17.AI斷的完全正确 18.(1) 那麼(人們)将認為我是狠心的人,并且是吝惜(賞賜)爵位俸祿啊。(2) 知道(上面)那些情況有可以給予百姓(刑賞忠厚)的道理卻不給予,這也是存心傷害百姓罷了。

怎麼樣,你是不是沒想到,AI的文言文居然不錯!3個選擇題裡隻錯1個,斷句全對!

隻是最後一題文言文翻譯存在很多問題,比如文中“忍”和“愛”分别應該是“狠心的”和“吝惜”的意思,AI翻譯成了“忍受”和“喜愛”,很明顯有些望文生義,最後文言文處得分:13/20。

如果讓AI做你的聯考國文題,它能得多少分?

正确答案:19.①.勤政樓 ②.千秋節 20. 情感上王詩表達對昔日盛世懷念,杜詩抒發昔盛今衰之悲歎;寫法上王詩運用細節描寫,杜詩運用拟人手法。

填空題是AI的強項,基本全對,即便古詩詞也不例外,但是對古詩情感和寫法上的了解和答題技巧還是差了點,得分:5/8。

如果讓AI做你的聯考國文題,它能得多少分?
如果讓AI做你的聯考國文題,它能得多少分?

正确答案:略

第三小題的文言文了解答得也不錯,和标準答案差了幾個小點而已,得分:4/6。

古詩文默寫5選3即可,GPT(1)(2)(4)句古詩詞是完全正确的,是以可以算全對,得分:6/6。

不過“潮平兩岸闊,無wind可依然”可太有“創意”了,不僅自己編造古詩詞,還中英摻雜……

最終古代詩文閱讀部分得分:28/40。

那麼最後一部分就是作文了,總分60分,題目如下:

如果讓AI做你的聯考國文題,它能得多少分?

(圖檔來源:2022年浙江卷聯考國文作文部分)

2022年作文材料挺接地氣的,内容和執行個體都給的非常具體,就事論事正是AI所擅長的,讓大家來看看AI的800字小作文:

如果讓AI做你的聯考國文題,它能得多少分?

(圖檔來源:作者與AI對話的網頁截圖)

通篇看下來,感覺重複詞句太多了,而且引用材料中的内容頻率很高,不過邏輯和語句還算通順,整體看來勉勉強強可以給個及格分36分。

這樣,AI在國文浙江卷滿分150分的情況下,最終得分為8+4+28+36=76分。

不及格!GPT隻能微笑着打出“GG了”……

那麼在挑戰浙江卷不及格的情況下,它在試做其他的聯考國文卷時,又會是何種表現呢?貫徹筆者本人一向嚴厲的批卷标準,并且在最後作文統一隻給及格分的情況下,其他聯考國文卷的最終成績如下圖彙總所示:

如果讓AI做你的聯考國文題,它能得多少分?

(圖檔來源:作者)

一共試做8套試卷,不及格率高達87.5%……

朋友們千萬不要放棄學習,寄希望于以後一切用AI,現在大語言模型人工智能其實對于文本的“了解”還遠遜于你們,它隻是擅長“記憶”和“内容概括”而已。

堅持學習,你聰明的大腦帶給你的驚喜和回報才是最大的!

為什麼AI國文考得不理想?它的其他科目怎麼樣?

在批卷的過程中,筆者發現,像文言文斷句、根據上下文填空一類的詞,GPT基本上全對,而在現代文閱讀和故事裡面談到細節的情感和表達、寫作技巧時,AI很難得分,而且現代文字越多,它在這個大題裡的得分就越低,說明它很難抓住重點。

為什麼會這樣呢?

因為GPT系列本身的基礎架構Transformer就不擅長處理長序列問題,盡管OpenAI的專家們使用了稀疏型Transformer來改進對于長文本的處理,降低計算複雜度,但現代文字數長了,它還是沒辦法将注意力集中到關鍵的點上。特别是散文,稀疏處理意味着它看一段跳個兩三段,通篇囫囵吞棗下來,可能連故事主線講了什麼都難以概括,更不要說了解作者蘊含在文中的深意了。

而文言文之是以答得比現代文好,是因為其本身篇幅較短,有效規避了Transformer不擅長長序列處理的缺點,且文言文一個字通常能頂白話文兩三個字,是以資訊豐富度更高,這就使AI通篇都能保持對關鍵點的注意力機制,進而有着對整體内容的更好了解。

總之,AI沒有經過系統的國文學習,不了解考試答題技巧,缺少對中文拼音與文法的細節掌握,更沒有對現代文和古詩詞中作者所要表達情感和精神内涵的深刻感悟。

可能有人會好奇,如果讓GTP-4挑戰聯考的其他科目,結果會怎樣呢?筆者的測試結果是:英語最高(畢竟算它的母語);數學和實體嘛,簡單的題還可以,題目字數一長,它就開始胡編亂造了,分數都挺低的;化學,生物和文綜類的結果一般,和國文差别不大。

放松心情,考運昌隆

今年的聯考國文已落下帷幕,在這裡由衷地祝願各位考生都能發揮應有的實力,考上理想的大學!

作為經曆過聯考的“前輩”,有句真心話送給大家,聯考隻是人生的一個階段性總結,分數的高低并不能和以後的成敗畫等号。人生是長跑,提高自己的認知,拓寬自己的眼界,把握時代的風向,做出正确的抉擇,付出持續的努力,這才是最重要的。

最後,祝各位考運昌隆!

如果讓AI做你的聯考國文題,它能得多少分?

聯考必勝!(圖檔來源:圖像生成類人工智能模型Midjourney)

參考文獻:

[1] Jason Wei, Yi Tay, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682.(2022)

[2] Jason Wei Xuezhi Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903v6.(2023)

[3]Sébastien Bubeck, Varun Chandrasekaran, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712. (2023)

如果讓AI做你的聯考國文題,它能得多少分?

出品:科普中國

作者:錢昱(中科院腦科學與智能技術卓越創新中心)

監制:中國科普博覽