5 大模型橫評,隻有它 500 字說清 10 萬字論文的事。作者丨馬蕊蕾、林傑鑫編輯丨林傑鑫最近翻相冊的時候翻到3月份的一張圖檔,恍惚間發現從事AI之後自己的閱讀量一直在暴漲。
大模型重構了很多行業工作流中的思考角色,也導緻在這個行業的人一直都有資訊攝取焦慮症。因為各行各業搞研究的人腦洞大開。比如斯坦福大學用AI扮演不同的人搞了個AI社會啟發清華大學用AI開遊戲設計公司,後來就有AI模拟人類社會發展6000年,發現AI人類為了活下去會變得自私。這些都還好,看着挺趣味的也好了解,過家家嘛。
最頭疼的就是那些個鬼:AI成功編輯人類基因,AI學會預測等離子體撕裂推進可控核聚變,AI設計了一套無需人類示範的歐幾裡得平面幾何定理證明系統。(别看了,頭痛,偏偏這些讓我上課瞌睡的卻成了我的工作内容。)很長一段時間我都在測試各家的大模型讀論文的能力,自己摸索了一套prompt:總結論文内容,研究背景是什麼,采用了什麼方法論證,取得了什麼積極性的突破,對比同類型研究有什麼優勢?将對普通人的生活産生什麼影響?如果技術方法複雜,請用類比或比喻的手法輔助我了解。
這段話可以快速定位研究的目的和用途,同時了解這些研究會對咱這些平頭老百姓會有什麼影響。問題在于,大部分論文動不動幾萬字到十幾萬字的,有很多各行業的專業術語,AI能讀,但給出來的結果往往是一個很空的大架構。更别說用比喻的手法解讀一些内容了,因為AI的了解不夠深入,也就不能做到用通俗易懂的話輔助了解.....
半年前我發現最好用的還是kimi,是以2個月時間我用他讀了1183萬字的論文,整個人的靈魂都升華了。當然,人嘛總是喜新厭舊,過了半年時間了,這會兒我也想看看其他家AI做的咋樣,來一場橫評。于是我打開我跟kimi的聊天記錄打算看看以往遇到什麼問題,然後就戴上了痛苦面具......
是的,看着過去的聊天記錄我想起來kimi隻會用OCR識别字但不會讀圖,是以很多論文的統計圖kimi都無法識别,導緻有些論文有大量曲線圖、資料圖的時候。kimi直接燈下黑睜眼瞎,像上面的圖屬于AI模拟人類社會發展1000代之後,人類性格轉變曲線,如果論文沒具體闡述,我是完全不知道如何變化的...也就無法擷取關鍵資訊。
是以這次評測我打算找一個長文了解能力不輸kimi,然後又有圖文了解能力的,但最好還是國内的,友善我随時使用。
1
初階圖檔了解測試
首先是來一輪簡單的圖檔了解測試。
在這裡做個免責聲明:大家都知道我這個人呢測試AI喜歡刁鑽。沒辦法,經常有些AI大廠就喜歡拿大家用過的經典測試題鑽漏洞,比如識别狗跟炸雞這題以前很火,有一天AI突然集體開竅了,然後有網友換了下圖檔順序,AI又識别不出來了。(嗯,大夥兒自己琢磨)
是以下面這輪測試我本來打算用廣東2016年的聯考國文題目來挑戰一下AI圖檔閱讀了解,但我怕這東西被AI偷偷摸摸練過,是以兄弟靈機一動,給圖檔打了一堆噪點。這一輪就不欺負kimi了。來一輪已經确定有識别圖檔能力的大模型來一場皇城pk。阿裡的通義千問、百度文心一言、位元組豆包、騰訊元寶。
注意我這裡用的是原圖測試,我發現通義可以準确識别數字,但是無法深入解讀表情、或者臉上的巴掌、吻,為了确認實驗的嚴謹,我又上傳了一張停車場的圖檔,發現它是能準确識别福特汽車的logo,是以也就不存在不能讀圖這一情況,而是他沒訓練過。
這是豆包的表現,連數字都讀錯了,那咱也就不繼續了.....
文心一言......雖然讀出了分數,但是後面我問他看到巴掌和吻了嗎.....這家夥回我一句“嘻嘻”,我&*%$#?!
說實話到元寶我已經放棄了,因為在我印象中,文心一言、通義千問、豆包都比元寶早出至少半年,而且元寶在我這确實沒啥存在感。結果,兄弟咋回事?這就讀出來了,而且還是加了噪點的圖檔???騰訊不聲不響憋了個大的,然後當我問到這些表情特征的時候他還做了可能發生的情況的解讀。是以第一場pk,元寶取得領先優勢。那麼既然各家确定有讀圖能力,接下來就加大難度,上有圖文的長論文。
2
長文精讀能力測試
論文名:《An evolutionary model of personality traits related to cooperative behavior using a large language model》這篇論文内容,主要講了用大模型生成不同性格的AI,模拟人類社會發展1000代,最後AI居然集體變為自私人格,自然雜志上的新研究揭露,AI在不受限制的情況下,可能整體都會趨向于自私。
主要是論文中有一大坨的各種曲線圖,要想更好的了解AI人類為了生存做出的性格改變就必須結合曲線圖了解。是以這裡想看一下,各家大模型對于長文以及圖檔的總結能力。鑒于kimi有優秀的長文了解能力,是以這裡還是拉上他來作為一個衡量各家品質的标杆。但這把不再是中國大模型内戰,而是拉上目前國外目前T0級别的claude,直接上強度。Kimi提示詞:總結論文内容,闡述研究背景,研究方法以及成果,實驗者提供什麼資料支撐他的實驗。
☟上下滑動檢視更多
Slide for more photos
我先是讓kimi總結論文内容大緻了解詳情,得知這是一篇關于AI模拟人類社會發展和人類性格變化的論文。
于是我追問人類疊代的趨勢是什麼,kimi也給出了解答,但這個解答說實話沒有将全文連貫起來讀。
在後續的追問中也沒展現出這張圖表的波動。而是大緻概括為 先自私然後偏向合作然後又可能變自私,但這個可能就很緻命,因為在第900代的時候,所有AI是大幅度變自私。也就是kimi擷取的資訊不準确。騰訊元寶
☟上下滑動檢視更多
Slide for more photos
元寶我照例先問主要内容,我覺得訓元寶的估計沒少研究使用者閱讀習慣或者幹脆就是一群有高效閱讀強迫症的人練出來的。因為它生成的格式主次分明,從研究背景、研究方法、實驗設計、結果分析、總體結論。感覺就像是讀書時拿了學霸同學的筆記。而且用什麼模型進行實驗、關鍵資料包括哪些,都有呈現。這是同樣提示詞下,kimi所不具備的。
但相比于kimi,最大的差異點我認為還是在疊代趨勢這裡。元寶是能講出曲線發展的波動。在進化過程中,初始階段,持續到大約第300代後,合作比例迅速上升,到第350代左右占比達到0.55,然後在第450代左右下降到約0.40。接着,合作比例反複增加和減少,到第850代左右達到最高值約0.75,之後迅速下降到0.15左右。根據資料波動又總結出出在進化過程中,AI人類的性格基因在二維空間中的分布顯示出多次轉變,反映了合作和自私性格特征的交替出現。也就是AI人類的進化一直在自私和合作之間反複橫跳,并且給出了具體的時間周期。(曆史果然是個車輪啊~)
而且,我還發現它左下角居然多了一個按鈕——深度閱讀該文檔,一點進去,元寶老爺今天我給您磕一個,此後承蒙不棄,多多帶我。
因為它直接将圖表和内容結合講述,把論文變成課件,以往我打開論文看到圖表人麻了,因為我還得看小字去了解這是描述啥的圖表。現在用元寶打開圖表,我人炸了,因為我直接就悟了。而且我懷疑騰訊是不是去哪裡請來了金牌備課講師,整個ui界面的視覺設計很符合閱讀習慣,左邊有論文的大綱,正文部配置設定合着圖來看論文,如果不懂,還可以實時對内容進行提問,真的很懂我。
拉到底人家還擺了一個關鍵問題及回答,這玩意看得我虎軀一震。兄弟們,參加過答辯的應該都知道這功能的含金量吧?這是元寶教授在跟你模拟畢業答辯呢,考試前老師在給你劃重點呢,還可以重新整理不同的問題。
人家甚至會對論文進行評價,換句話說自己寫的論文上傳給元寶,元寶教你改論文,完事了還跟你模拟答辯,寶子哥,不僅看論文厲害,我發現估計寫論文和模拟答辯還有奇效。通義千問
整體思路看起來不錯,開頭簡潔明晰的介紹了論文的研究重點,正文從研究的特點和成果進行展示,但是深究具體内容,會發現不是很全面,有些模糊,讀完一席話,勝似一席話。Claude-3.5
一眼看過去,Claude的回複真的很簡潔,主要概括了論文的一些要點,沒有特别成體系,但不得不說可能因為字數少,我竟然看進去了。但過于簡潔,看完之後,我就沒有然後了,對于我這個剛入門學習的人來說,不太友好。
當然,通義千問和Claude-3.5在内容上也做到了元寶講的總結出具體的數值,不同的是,Claude-3.5能清晰知道具體結論對應哪幅圖,這一點上通義千問沒有。但Clude3.5沒有像元寶那樣把圖放在那講,還得去翻圖檔來回滑動,看起來很麻煩。從kimi、通義千問、騰訊元寶和Claude3.5的測試中,我意外還發現kimi和騰訊元寶的互動設計做的很絲滑。當提出問題得到相應的回報後,這兩家有一點非常Nice,點選生成答案的右下角的分享辨別,他們都可以快速生成内容的長圖或者連結。其實通義千問,點選分享也會有相應互動,但是目前隻能複制答案的連結,沒有生成圖檔的功能,通義啊,這裡可以改進一下下。除了論文總結能力,讀研報不知道各家表現怎麼樣,我們再試一試,看看效果。
3
分析研報
接着扔一個《2024巴黎奧運會熱度趨勢洞察》PDF,并加上幫我分析一下這份研報,概括出最重要的資訊,字數不要超過500字。通義千問很簡單的總結了一段話,細看内容隻總結了平台和品牌合作,概括不太全面。
騰訊元寶
這裡元寶我又i了,總結了研報的核心觀點,還從奧運會熱度掃描、話題洞察、品牌洞察分别概括了具體内容,很清晰。
如果作為一名短視訊營運或者商家,你就會發現元寶的資訊有多珍貴。首先他會跟你說主要熱點有哪些。緊接着又指出兩個熱度最高的社交平台微網誌和抖音,其中微網誌是内容量占了全網68.3%,抖音互動奧運話題互動量占全網69.4%。但元寶又指出,品牌方主要在小紅書進行商業投放,原因是小紅書熱門話題更注重體育項目和運動員,抖音則以愛國話題為主。同時從消費者趨勢來看,小紅書女性使用者多,抖音男性使用者多,25~34歲是主要人群。這下消費者畫像不就一下子清晰了?每個研報如果都能這麼總結,我一天能看100份。
重點是它的深度閱讀依舊可以總結重點資訊還帶配圖的那種,每次精讀的尾聲部分,還能再來一波關鍵問題的解答。Claude-3.5
中規中矩,很簡潔的概括了一些想要看到的資訊。整體體驗下來,元寶确實在長文精讀方面的能力更強,在内容和文本格式方面都很線上,我感覺它很懂使用者的閱讀使用習慣,深度閱讀模式的大綱、圖文搭配、實時對文章進行提問的能力,用起來一整個都很舒适!
4
番外測試篇
當然最近網上也很流行測AI了解梗圖的能力和數學邏輯推理,是以這裡也測點網上大家都喜歡測的,看看各家的表現。
上傳一張表情包,問:這個表情包實際代表什麼意思?通義千問
能看出它有很認真的去了解表情包,實體層面有了,缺了點化學反應,幽默和倦怠點題了。騰訊元寶
元寶真是懂打勞工的,直接明了的對準一個情緒。“在抱怨某個無法解決的問題”or“對某種情況感到無能為力”。 Claude3.5
這一波Claude讀出了很多種複雜的情緒,看上去比我更會形容日常的無奈。
接下來是簡單的數學邏輯推理,為了防止題目被AI訓練過,是以我對同個圖形進行順序颠倒的測試。文心一言
這不,文心一言就漏出雞腳了,正向回答沒問題,反向回答卻是比正方形更簡單或與正方形相似......
通義千問正常通關。
元寶也正常通關。
插個題外話,我今天在用騰訊元寶的時候,也想看一下它實時聯網更新擷取最新資訊的能力。原因是大部分AI雖然現在有聯網功能,但它一般搜尋的都是一些陳年消息作為參考。當我試着搜尋AI在義烏的應用時,居然搜到了上周五自己寫的文章,并且元寶還對文章内容進行了概括,我順帶試了試其他家,目前隻有元寶能搜到。這次橫測,有一種感覺,各家大模型好像在去年的百模大戰之後,就變得有些懈怠。其實作為使用者,還挺想看各家卷來卷去的,這樣就會有更好用的産品幫我“打工”。說真的,AI産品的優勢在于持續進化的過程,沒有永遠的勝者,隻有永遠的創新者。這是一場漫長的競争,而更好的使用者體驗是唯一不會變的法則。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公衆号轉載請先在「AI科技評論」背景留言取得授權,轉載時需标注來源并插入本公衆号名片。