最近,科技圈的熱點可太多了,大緻是這樣的:
ChatGPT-3.5 釋出。。。New Bing 釋出。。。ChatGPT-4 釋出。。。文心一言釋出。。。
一波又一波的 AI 新聞,讓人感覺《 黑客帝國 》就快要照進現實世界了。
關于它們的測評,相信大家已經看過不少。
但不知道大家有沒有好奇過:理工向内容,對錯明确,一看就懂這些 AI 啥水準,但創作類的,尤其是文本寫作,總讓人摸不着頭腦。
——看起來寫得都挺像回事,但感覺都差不多?
今天世超就想整個活:邀請他們同寫一篇聯考作文,然後請一位聯考作文判卷老師來批改一番 ~
雖然聯考作文題目不能代表一切,但這是一個相對公允、而且大家都熟悉的衡量标準。
我們挑選的試題為,2022 年天津卷聯考作文,滿分為 60 分↓ ↓
邀請的判卷老師是一位資深的天津聯考作文判卷老師。
接下來,世超會先展示 AI 作文,然後展示老師評分,感興趣的差友看例文的時候,也可以自己給他們打個分~
1 号選手:
老師解析:文章截取生活中的平常瞬間和場景,闡述了煙火氣代表的尋常生活的珍貴,文筆流暢優美。結尾主旨升華為珍惜當下的生活,體會平凡之美,立意貼切。文中在勇于擔當和奉獻的論述時略顯脫離主題。本文已基本達到聯考作文的二類水準,為一般考生寫作的中上水準。從 AI 創作角度看,文章品質優于一般考生的 50%。
老師評分:45
2 号選手:
老師解析:文章以作者自身的經曆來闡發煙火氣,切入點可取,但在行文中對煙火氣與自身生活的聯系的表述略顯生硬,最後的升華也應圍繞煙火氣的主題來展開。本文為聯考作文二類下水準,基本達到聯考作文的平均分值,但以 AI 寫作來看,在文章倒數第二段出現了明顯不符合日常寫作的語言表達,是較明顯的扣分點。
老師評分:42
3 号選手:
老師解析:本文對 " 煙火氣 " 的了解出現問題。審題有誤。将煙火氣與煙花燃放混同,是以判定為跑題。此文因明顯對題目關鍵詞了解有誤,故判定為不及格一檔,明顯 AI 在某些情況下對語言中的相近詞或有隐含意的詞語的分析上仍與人存在偏差。
老師評分:28
4 号選手:
老師解析:文章的開頭基本符合題目要求,符合對煙火氣的了解。但在後文中出現了段落首句主題句與後面的論證完全脫離的情況,主旨句合題,但論述部分跑題。這種情況影響整體文章的評分,屬跑題套題作文。
老師評分:38
好了,現在各位差友可以猜一下對應的 AI 都是誰了。
一号選手:GPT-4; 二号選手:New Bing
三号選手:GPT-3.5 四号選手:文心一言
不知道各位猜的咋樣呢?
GPT-4 的分數果不其然拿到了最高,New Bing 其次,文心一言再次,最後得分最低的是 GPT-3.5。
世超也跟這位老師簡單聊了下對 AI 作文的看法。
首先,聯考中如果考生沒有大的跑題和偏題現象,但也沒有特别出彩的地方,一般會在 42 分左右上下浮動,文筆好一點,能在這個基礎上加個 1-2 分,也就是說 42 分是大部分人類考生的平均水準。
那麼,想要拿高分的話,這幾位 AI 主要是欠缺了什麼能力呢?
老師告訴世超,這幾篇作文主要還是圍繞題目本身來寫,而想要變成比較優秀的聯考作文( 接近 50 或 50 分以上 ),就要對煙火氣做引申,比如引申到日常身邊微小的瞬間,往更深度的地方去說。
AI 創作的這幾篇文章中有一個共性,就是已經比較符合聯考作文結構要求。
前面先給個帽子,後面分幾段論述,最後有個升華的結尾,這也是比較常見的寫法,這幾篇文章中,這個格式是基本符合的。
但是評閱作文時,結構隻是一個方面。
AI 在這幾篇創作中也有一個比較明顯的問題:概念混淆。
即:将煙火氣與燃放煙花混同。
尤其是後面兩篇,而在正常考生中,這種比較低級的概念了解錯誤是比較少見的。
一般正常考生會出現的錯誤是:套作,也就是拿另外一個他準備好的概念來替換現有概念。
除此之外,還有一些零碎的點。
比如有些作文出現了語言上不太符合正常說話習慣、寫作習慣的東西,标點符号也沒有。
以及,字數寫不滿,需要人為矯正的情況。
在世超輸入的題目中,明确包含了 “ 不少于 800 字 ” 這一要求,然而其中 New Bing 跟文心一言在初次生成作文時,都出現了隻生成了 400-500 字作文的情況。
下面這個是文心一言的,點選可看大圖 ↓
如果要用聯考評分為次元,這位老師告訴世超,按照聯考作文的标準,字數明顯不夠的情況,基本上就是 15 分左右,不會超 20 分。
看完 AI 們生成的這些作文,世超感覺自己的工作暫時是保住了,畢竟現在的 AI 更多時候隻是了解了表意,但語言背後的内涵和隐喻才是寫作和表述中最難的那一部分。
當然,我們不排除,如果人為好好的去誘導 AI,給 AI 一些好的素材和角度,它也許會給出真正不錯的作文。
無論如何, AI 在創造性寫作這一塊,人類暫時還有優勢。。。