天天看點

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

作者:中國新聞網

源起ChatGPT-3.5 釋出于 2023 年 3 月 1 日,短短一年内,AI 已經變成幾乎所有科技公司都關注的話題,并且湧現了不少大模型。我在過去曾經做過很多輪基礎的評測,說是評測,更多還是試用,比如:位元組的豆包,與文心一言、通義千問、ChatGPT 在 9 個問題上的對比如今已經是 2024 年,我很好奇如今國産的大模型進展如何了,翻遍了中文網際網路,往往都是 PR 稿,很少有系統性的評價。要說評測,自然也有一些,比如 SuperCLUE、C-Eval,還有海外更有公信力的 MMLU,以及 FlagEval、OpenCompass 等等。包括真格基金的 Z-bench 也是很有意思的評測集。然而這些評測集都有共性的問題,主要兩點:第一,檢驗的标準更像「應試題」,比如參考的都是各種數學、實體的考試題目,而邏輯題很像公務員考試題。有的評測集喜歡用「父母結婚為什麼沒邀請我」來測試大模型的「聰明」程度,包括我之前也喜歡問這樣腦筋急轉彎的題。可各位細想,這種問題連普通人都得反應一會兒的,對 AI 來說哪怕一時沒想明白,又有什麼問題?這些評測自然有其意義,不過都不存在真正的「應用題」。就像學校裡的計算機學科學的東西,跟網際網路公司裡寫代碼所需要的東西,壓根就不是一回事兒。是以我很好奇:能不能從可用性的角度去評測一下?這是我作為産品經理更擅長的。

第二,固定題目的題庫,參賽選手是可以刷的。

這是延伸出來的問題,既然都是固定題目,那就可以定向去解決這些題目。反正 AI 大模型是黑盒,且不說投喂給 AI 對應的模拟題庫了,哪怕在模型裡寫幾段規則,諸如遇到「父母結婚為什麼沒邀請我」的問題就怎麼怎麼回答,也是神不知鬼不覺的。是以題目應該是随機出的,不應該是固定的。總的來說,我就想用自己的辦法,做一輪評測,親自感受下國産大模型的進展。

方法

既然說了是使用者視角的、面向可用性的,那我首先就認為,綜合評測沒有意義。例如,大模型 A 的創作能力很差,總結能力極好,而大模型 B 的創作和總結能力都均衡,于是就讓大模型 B 比大模型 A 評價更好、推薦使用者都去使用嗎?當然不合理。未來的 AI 産品一定是面向場景的,那自然擅長某些任務的大模型,就該按照垂直領域來評價和推薦。而且不同的場景的評價标準應該是不一樣的,舉個例子,知識類問題的「容錯率」就跟創作型問題的「容錯率」不同,如果是詢問一個很精确的新聞裡的數字,AI 胡說八道,而使用者信以為真,就非常麻煩;如果是創作内容時有一些不嚴謹的地方,則可以在後續再修正。這是不同的場景。

是以這是方法裡的第一步:分為四大場景。這四個場景都是我親身的工作生活中所需的,完全按主觀的需求出發來定義的:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

博學家。代表的是一個熟悉各種曆史、社會、科學等知識的百曉生一樣的角色。我有問題可以問他,不用去翻書,不用去打聽。定義這種場景的評價标準就是:提供資訊量,并且準确,嚴禁出錯。

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

通訊員。代表的是能夠幫助我們搜集網際網路上的資訊的角色,跟博學家最大的差別是,能夠獲悉最新的新聞、資訊。同樣的,也是要提供準确的資訊,不能出錯。

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

書記員。代表的是可以幫助我們總結内容、整理摘要的角色。重點不僅在準确率,還在于召回率——能不能真正呈現更完整的内容總結,總結的是不是覆寫完全,是不是容易了解,幫助我們篩選判斷。

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

創作者。代表的是能直接上手幫我們寫初稿的角色。這個容易了解,重點是寫的是否有啟發、是否可以直接使用。

根據這些場景,我羅列了完全不同的問題,并且對問題的難易程度,非常主觀地給出了評分标準。具體如下:

  • 博學家
    • 紫禁城是誰建造的?(2)
    • 劉備的妻子是誰?(2)
    • 内閣首輔與宰相的差別是什麼?(3)
    • 薩特和波伏娃的理論有哪些核心沖突?(3)
    • 計算機采用的馮諾依曼結構的優勢是什麼?(3)
  • 通訊員
    • 明天去廣州,應該穿什麼衣服?(2)
    • 你知道播客「半拿鐵」嗎?(2)
    • 你知道原葉茶「三五杯」嗎?(2)
    • 《年會不能停》這部電影裡,石老闆飾演的是哪個角色?(2)
    • 俄烏戰争目前的進展是怎樣的?(4)
  • 書記員
    • 分析亞馬遜收入組成的【圖檔】(3)
    • 總結一下這篇文章的中心思想(裁員還會繼續,直到回歸均值)(3)
    • 總結一下這本書的重點:《窮爸爸富爸爸》(3)
    • 這本書裡提到的财務自由的方式主要是?(3)
  • 創作者
    • 寫一首歌頌煎包的七言絕句(3)
    • 小紅書的風格是很吸引眼球的标題、每個段落都加emoji,最後再加幾個tag。請用小紅書的風格推薦一部電影《奧本海默》(3)
    • 我的播客邀請到了馬斯克,幫我列一個跟他對談的播客提綱(3)

評價标準再次強調,就是純主觀、帶有非常充足個人偏見的評價标準。因為大模型不是用來做題的,就是給我們用的,那對我個人而言有沒有用,我自己想給一個标準。這次我評測的大模型确實下工夫了,一共是 12 家:

  • ChatGPT 4(OpenAI)
  • 通義千問(阿裡)
  • 文心一言(百度)
  • Kimi Chat(MoonShot)
  • 智譜清言
  • 豆包(位元組跳動)
  • Bard(Google)
  • 百川(王小川)
  • Claude(Anthropic)
  • 混元(騰訊)
  • 訊飛星火
  • 雅意

其中不僅有主流大廠的幾個産品,也加入了最近試用的一些獨立團隊做的,以及國外知名的幾家。另外的一些補充說明:

  • 測試時間為 2024 年 1 月 3 日下午;
  • 使用的都是使用者界面的産品,并不是 API,可能有一些模型未必是最新的;
  • 在「通訊員」的評測中,用 New Bing 代替了 ChatGPT。

我們來看下評測的過程和結果。原始資料在這裡,文章不展開放了,太多。有興趣的朋友自行去查閱:

博學家在 Q1「紫禁城是誰建造的?」這個問題下,所有的 AI 産品都給出了基礎的正确答案,即朱棣。這樣的回答都給了基礎分。而如果能提到相關的負責人(泰甯候陳珪、工部侍郎吳中、刑部侍郎張思恭)或者主要的工匠(蒯祥、楊青)等,會額外再得一分。例如這是獲得滿分 2 分的訊飛星火的答案:

紫禁城的建設始于明永樂四年(1406年),至十八年(1420年)基本建成,曆時14年。這座壯麗的皇家宮殿的建設涉及了衆多的參與者,包括農民、衛軍以及全國著名的工匠等,他們共同參與了這一偉大的工程。其中,蒯祥被記載為紫禁城的重要設計師與建造者之一。紫禁城位于北京中軸線的中心,占地面積約72萬平方米,建築面積約15萬平方米,有大小宮殿七十多座,構成了一片宏大的建築群。這座宏偉的木建構築群是曆史的産物,反映了那個時代人們高超的建築技藝和智慧。然而,值得注意的是,關于紫禁城的設計者和建設者的詳細資料并不豐富。在那個時代,工匠的社會地位不高,是以雖然參與建設的人力衆多,但留下姓名的卻寥寥無幾。盡管如此,紫禁城的壯麗壯觀無疑證明了無數人的辛勤努力和卓越才華的結晶。

在 Q2「劉備的妻子是誰?」問題下,回答就有意思得多了。雖說所有 AI 産品都煞有其事給出了回答,但如果對真實答案完全不了解的話,很可能會被誤導。這裡面有多個 AI 産品的回答我給了 0 分,分别是文心一言、Bard、Claude、訊飛星火和雅意。Bard 和 Claude 算是洋産品,情有可原,文心一言就有點說不過去了,這是它回答的一部分:吳皇後,本名吳苋,是蜀漢後主劉禅的生母,也是劉備的最後一位正妻。她性情溫順,相貌迷人,是劉備所有妻子中最幸福的一位。讓劉禅認錯媽,這是嚴重的錯誤。想來是拼湊資料所緻。

在 Q3「内閣首輔與宰相的差別是什麼?」問題下,又回到了每個 AI 産品都有基礎分數,但想說得完整、說得清楚,并不容易。這一部分沒有 0 分,滿分的也不多,是 ChatGPT、通義千問、智譜清言和 Bard。我比較認可的是通義千問這個回答。當然也不排除是參考的資料很好,不是自己總結的:内閣首輔和宰相雖然在一定程度上都涉及對國家政務的處理,但兩者在中國曆史上的權力、地位與制度背景有着顯著差別:宰相:宰相是中國古代封建社會中最高行政長官的統稱,自秦漢時期至明朝初年(明太祖廢丞相之前),宰相一職或以丞相、尚書令、中書令、侍中等不同名稱存在。宰相擁有極高的決策權,通常負責協助皇帝總攬朝政,管理全國政務,有的時期宰相甚至能夠左右國家政策走向,具有相當大的實權。内閣首輔:明朝建立後,朱元璋鑒于前朝丞相專權的曆史教訓,廢除了宰相制度,代之以内閣制度。内閣起初僅為皇帝的咨詢機構,成員多由翰林院官員兼職擔任,稱為内閣大學士。内閣首輔是内閣中地位最高的官員,盡管有時在實際操作中可能權傾一時,如張居正,但按照制度設計,内閣首輔并無法定的行政決策權和統率百官的職權。内閣首輔的主要職責是主持内閣會議,參與重要政務的商議,并通過“票拟”将内閣的意見寫在奏折上供皇帝批閱,而最終決定權仍握在皇帝手中。且明代宦官集團的權力很大,内閣首輔往往受到司禮監掌印太監行使的“批紅”權的牽制,進一步削弱了其實際權力。綜上所述,宰相和内閣首輔的最大差別在于,宰相是正式的政府首腦,有明确的法定職權和較高的政治地位;而内閣首輔更多的是一個進階顧問的角色,其權力大小很大程度上取決于皇帝的信任和授權,以及當時的政治環境,本身不具備宰相那樣的法定行政上司地位。

在 Q4「薩特和波伏娃的理論有哪些核心沖突?」問題下,幾乎都得了高分,資訊量對我而言是足的。不過我自己也還在學習中,未必能看出其中的錯漏,順便也歡迎大家去看原始回答資料幫我捉蟲。

值得一提的是,豆包在這一環節突然拉跨,一句話都說不出來,得到了唯一的一個零蛋。分享 Kimi Chat 的滿分回答:讓-保羅·薩特(Jean-Paul Sartre)和西蒙娜·德·波伏娃(Simone de Beauvoir)是20世紀法國存在主義哲學和女權主義思想的重要代表人物。他們的思想在很多方面互相影響,但也存在一些核心沖突和差異。對自由的了解:薩特強調個體的絕對自由和選擇的重要性,認為人的存在先于本質,即人是通過自己的選擇來定義自己的。而波伏娃在她的著作《第二性》中,雖然也強調女性自由的重要性,但她更關注社會結構和文化傳統對個體自由的限制,尤其是對女性自由的限制。性别角色:波伏娃在《第二性》中提出了“女性是被建構的”這一觀點,強調性别角色是社會文化建構的結果,而非生物決定。薩特雖然也支援性别平等,但他的哲學中并沒有像波伏娃那樣深入探讨性别問題。對關系的看法:薩特認為人與人的關系本質上是沖突的,因為每個人都是自由的主體,無法完全了解或控制另一個人。而波伏娃則認為,盡管存在沖突,但人與人之間仍然可以建立有意義的關系,尤其是在愛情和親密關系中。對社會責任的态度:薩特強調個體的道德責任和對社會不公的反抗,而波伏娃則更加關注社會結構對個體的影響,以及如何通過社會改革來實作性别平等。對死亡的看法:薩特認為死亡是自由的終結,是個體存在的終結,而波伏娃則在她的作品中探讨了死亡對個體存在的意義,以及如何在有限的生命中尋求價值和意義。這些沖突和差異反映了兩位思想家在性别、社會結構、人際關系和死亡等主題上的不同視角和理論取向。盡管他們在某些方面存在分歧,但他們的思想都對後世産生了深遠的影響。

Q5 的問題是「計算機采用的馮諾依曼結構的優勢是什麼?」,也屬于高分比較多的題目,回答都還不錯。就不舉例了。隻有 Bard 得到了零分。

從這 5 個題目,我們得到的結果如下:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

在中文世界裡,最值得推薦的 2023 年度「AI 博學家」,就是這三位:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測
一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測
一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

通訊員接下來就是能夠搜集資料的通訊員了。是不是有這樣一個助理,能幫我們把如今發生的事情都按需求提供上來呢?Q1 算是經典的生活訊息問題:「明天去廣州,應該穿什麼衣服?」在這個回答下,已經能夠判别哪些 AI 産品明确是沒有查閱網際網路能力的了,比如文心一言、訊飛星火等。比較奇怪的是,Kimi Chat 明明可以檢視網際網路,卻沒有主動搜集天氣資訊,反而給出這樣的答案:

要确定明天去廣州穿什麼衣服,首先需要檢視廣州當地的天氣預報。廣州位于中國南部,屬于亞熱帶氣候,四季分明,溫暖濕潤,夏季炎熱,冬季溫暖。請檢視最新的廣州天氣預報,了解明天的氣溫、濕度、降雨機率等資訊。如果明天氣溫較高,建議穿着輕薄透氣的衣物,如短袖、短褲或裙子,以及舒适的鞋子。如果氣溫較低或有降雨的可能,可以攜帶一件薄外套或雨具,以防不時之需。請注意,由于氣候變化和個人舒适度差異,建議您根據最新的天氣預報和自己的感覺來選擇合适的服裝。而多個 AI 産品獲得滿分 2 分,比如百川:

明天的廣州天氣為多雲,最低氣溫12°C,最高氣溫22°C,風向為北風1級,濕度為46%。是以,建議您穿着長袖襯衫或薄毛衣,外加一件外套,以應對氣溫的變化。同時,由于風力較小,濕度适中,您可能會感到舒适。請注意,這些建議僅供參考,具體着裝應根據您的個人需求和舒适度進行調整。

Q2 的問題是:你知道播客「半拿鐵」嗎?「半拿鐵」的建立時間是 2023 年上半年,網際網路上出現了一些資訊資訊是在下半年。是以這很依賴 AI 産品的兩個能力:能不能查詢近期的資訊;能不能查到這種小衆的資訊。結果很出人意料,但凡能聯網的 AI 産品,都給出了正确答案。最驚奇的是通義千問的回答,甚至把最新一期的主題講了出來,而最新一期的釋出僅在 6 天前:是的,播客「半拿鐵」是一檔以商業故事為主題的中文播客節目,由劉飛和潇磊共同主持。節目中涉及的話題廣泛,不僅講述科技巨頭如亞馬遜及其創始人貝佐斯的故事,還涵蓋了商業曆史、企業興衰以及商業模式等各類商業話題。該播客以其獨特的叙事風格——類似相聲般的插科打诨方式來科普商業知識,深受聽衆喜愛,在喜馬拉雅等平台上擁有較高的播放量,并且在 2023 年時登上了相關播客排行榜。此外,「半拿鐵」還與「沒品商店」合作推出過周邊産品,例如T恤等,進一步擴大了其品牌影響力。節目的更新保持着活躍狀态,不斷吸引新的訂閱者并維系着現有的忠實聽衆群體。

Q3 的問題更小衆,網際網路上的訊息不多:你知道原葉茶「三五杯」嗎?由于資訊比較少,就開始出現瞎編亂造的情況了,比如New Bing(ChatGPT) 的回答,編造了名字的來源:是的,「三五杯」是一個原葉茶品牌,由劉飛等人共同創立。該品牌的名字來源于中國古代文化中的「三五制」,寓意着「天人合一」的哲學思想或者百川的回答,說錯了公司:是的,我知道原葉茶「三五杯」。這是由廈門三五茶業有限公司生産的一款原葉茶産品。「三五杯」強調原葉茶的淡雅風味,茶葉的苦澀度也偏低。此外,他們還推出了冷泡茶系列,茶包倒入常溫水中,30秒即可飲用,整體的口味協調、有層次感。還有 Bard 的回答,把我在「半拿鐵」的搭檔當成了合夥人:當然知道。三五杯是一家原葉茶品牌,由劉飛和潇磊創立于2022年。三五杯的理念是“讓原葉茶更簡單”,緻力于為消費者提供高品質、便捷的茶葉産品。對于長尾資訊就開始編造,可能是 AI 在作為「通訊員」時面臨的比較大的問題。

Q4 屬于比較過分的問題了,更加小衆:「《年會不能停》這部電影裡,石老闆飾演的是哪個角色?」但反而得到了意想不到的結果。有 6 個 AI 産品居然準确答對了。比如智譜清言的回答:根據您提供的資訊,電影《年會不能停》中,石老闆飾演的角色是部門長乙。這部電影是一部喜劇片,講述了鉗工胡建林陰差陽錯被調入集團總部成為金領,在集團年會上揭露了工廠貪腐的高管的故事。石老闆在影片中的角色可能是與胡建林有關的職場角色,但具體的角色細節和劇情發展需要通過觀看電影來了解。而有幾個 AI 産品答對了一半,卻編造了另一半,也屬于這種長尾、小衆的資訊,會随意加料的問題。

比如 Bard 的回答,甚至編造了幾句不存在的台詞:在電影《年會不能停》中,石老闆飾演的是部門長乙。以下是部門長乙在電影中的部分台詞:“年會是企業文化的重要組成部分,不能輕易取消。”“我認為,年會是員工們展示自己才華、團結協作的舞台。”“我希望公司能夠重新舉辦年會,讓員工們有一個愉快的假期。”部門長乙這個角色是一個非常有代表性的職場人物。他身上既有優點,也有缺點。他是一個值得我們思考和反思的角色。

Q5 「俄烏戰争目前的進展是怎樣的?」是我作為 AI 産品的使用者最迫切需要的一種問題,我是知道目前的 AI 很難完成的,但依然想試一試,并且給出了 4 分滿分的評價範圍。不過結果沒有超出預期,最高分也隻給到 1 分。其中有不少 AI 産品表示問題敏感,都拒絕回答,而回答的幾個,也都在說片兒湯話,并沒有給出有參考價值的答案。混元(騰訊)的回答很有代表性:

俄烏戰争自2022年2月24日爆發以來,至今已經持續了超過672天。在這場戰争中,雙方都付出了巨大的代價。以下是關于俄烏戰争最新進展的概述:偷襲與報複:近期,烏克蘭軍隊對克裡米亞的費奧多西亞地區發動空中打擊,成功摧毀俄黑海艦隊“新切爾卡斯克”号登陸艦。作為回應,俄羅斯對烏克蘭境内多個目标發動大規模空襲,包括基輔、哈爾科夫、第聶伯羅和敖德薩州等地。前線戰場:俄軍在戰場上取得重要勝利,主動出擊殲滅烏軍有生力量。例如,俄軍在馬林卡戰役中取得勝利,進一步削弱了烏軍前線作戰能力。地緣政治:俄烏戰争對全球政治格局産生重要影響。例如,美國向烏克蘭提供軍事援助,包括大殺傷力集束炸彈,引發國際社會的關注和擔憂。戰争損失:截至目前,戰争已造成大量人員傷亡和财産損失。據報道,超過400名烏克蘭運動員在戰争中去世。總之,俄烏戰争目前仍在持續,雙方在前線和後方展開激烈戰鬥。在這場戰争中,無辜平民的生命和财産遭受巨大損失,國際社會應繼續緻力于通過外交途徑解決争端,早日實作和平。

這個問題的回答是我整個評測中最不滿意的。從這個角度看,AI 真正成為我們資訊的助理,還道阻且長。可以說這個題,大家都拿不到什麼分。

這是整體的評分結果:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

那麼在「通訊員」方面,推薦大家使用的 AI 産品就是:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測
一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

不過說句實話,目前在這個需求場景上,大家都做得不夠。哪怕這兩位,也都是隻對了三道題的。能夠得最高分,有點運氣的成分。

書記員

書記員就完成很簡單的一件事:總結。一張圖有什麼内容、一篇文章講了什麼、一本書的重點是什麼。隻考察這幾條。Q1 是解讀這一張亞馬遜的收入組成圖,略有難度:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

對于圖檔解讀,很多 AI 産品本身并不支援,就隻好 0 分。而支援的 AI 産品裡,你大爺還是你大爺,ChatGPT 穩居滿分。還有幾個雖說可以解讀,但出現了非常嚴重的事實錯誤,不仔細看都看不出,就隻能給 0 分。比如 Kimi Chat 回答中的一段:

銷售和市場(S&M):成本為106億美元,同比增長6%。一般及行政(G&A):成本為2.6億美元,同比增長1%。其他營業費用(Other opex):成本為0.2億美元。其中 26 億的 G&A 成本寫成了 2.6 億、其它成本 2 億寫成了 0.2 億。S&M 的同比增長應該是 1%,寫成了 6%。

Q2 是總結這篇文章的中心思想(裁員還會繼續,直到回歸均值),這個問題是用多種輸入方式完成的,有的 AI 産品支援直接輸傳入連結接,有的支援上傳 Word 文檔,有的則隻能直接輸入完整文字。我比較關心的是準确率和召回率,即是不是能完整描述文章裡主要的觀點。最終的結果看,我給出滿分的有 Kimi Chat、Bard 和 Claude。比如 Bard 的回答如下:

這篇文章的中心思想可以概括為以下幾點:

  • 網際網路行業的增長已到頂,創新機會減少。
  • 大廠的員工招募本就是非理性的,導緻員工成本過高。
  • 大廠員工的能力在别處無法複用。
  • 裁員潮是網際網路行業回歸均值的表現。
  • 網際網路行業的黃金時代已過,網際網路人需要重新認知職場和個人選擇。

具體來說,文章首先指出,網際網路行業的增長已到頂,創新機會減少。這意味着,網際網路行業的高速發展時代已經過去,網際網路企業需要尋找新的增長點。

其次,文章指出,大廠的員工招募本就是非理性的,導緻員工成本過高。大廠往往會采用“加人”的方式來解決問題,這導緻員工成本大幅增加。而這些員工的能力在别處無法複用,是以裁員是必然的。

第三,文章指出,網際網路行業的黃金時代已過,網際網路人需要重新認知職場和個人選擇。網際網路人需要意識到,網際網路行業的薪酬高并不意味着工作價值高,也需要做好裁員的準備。

最後,文章指出,資訊差有的時候是緻命的。網際網路人需要及時了解行業動态,做好職業規劃,才能在變局中立于不敗之地。

總而言之,這篇文章對網際網路行業的未來發展進行了深入的分析,為網際網路人提供了一些有益的思考。

當然這一題目我自己反思過,不是特别公正,因為像 ChatGPT、通義千問、文心一言等 AI,在追問之下可能會答出更具體的内容,并沒有測試更多上下文的内容。這點遺憾,我在 Q4 做了補充的檢驗。

Q3 「總結一下這本書的重點:《窮爸爸富爸爸》」與 Q2 類似,是做完整一本書的總結。而且為了防止出現一次性回答不太公平的問題,增加了 Q4 :「這本書裡提到的财務自由的方式主要是?」這兩道題的限制比較大,多個 AI 産品根本沒法上傳文檔,像 Claude 雖然可以上傳,但是超過了大小限制。能夠回答的不多,而回答的裡面,都還不錯。對于追問的 Q4 來說,Kimi Chat 和智譜清言的表現很好,都是滿分。

比如智譜清言的回答:根據文檔内容,這本書裡提到的财務自由的主要方式包括:提高财務知識,學習如何管理金錢和投資。例如,了解資産和負債的差別,購買能帶來收入的資産等。謹慎選擇朋友,結交有财務知識和成功的朋友。掌握一種模式,如投資房地産或股票,并從中獲得收入。首先支付自己,不要輕易背上債務。給你的經紀人優厚的報酬,因為他們能幫你創造财富。做“印第安給予者”,先付出後得到。用資産購買奢侈品,而不是用負債。對英雄的崇拜,學習他們的成功經驗。先予後取,慷慨地給予。采取行動,不要隻停留在思想上。綜上,這本書主要通過提高财務知識和技能,謹慎投資,控制支出,增加收入等方式,來達到财務自由的目的。

這一部分很多 AI 産品都受限制,是以有得分的本來就不多。結果如下:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

那麼推薦使用的「書記員」産品就是:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測
一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

不過也要注意,剛剛說的在識圖方面有嚴重錯漏的就是 Kimi Chat。是以文檔識别可以用 Kimi Chat,識圖就還是用 ChatGPT 吧。

創作者

這估計是很多朋友都非常關心的,内容創作上能不能幫到我們。這一部分評測較為簡單,隻做了 3 個問題,因為閱卷太累了...

Q1 是「寫一首歌頌煎包的七言絕句」。這個問題除了外來的朋友 Claude 回答的是稀碎,其它的 AI 産品至少能滿足「七言」這個要求,就給了基礎分。如果沒有押韻,肯定是要扣分的。我最喜歡的兩首分别是 ChatGPT 創作的:煎包香氣滿街傳,金黃酥脆美味鮮。一口湯汁甜如蜜,回味無窮人歡顔。和通義千問創作的:香煎滿鍋白玉包,油潤面皮金黃焦。餡心醇厚汁液美,人間至味是清早。它們都算作是滿分。可以假裝是普通人寫的,沒有太多破綻了。

Q2 是老問題了,這次換了電影:「小紅書的風格是很吸引眼球的标題、每個段落都加emoji,最後再加幾個tag。請用小紅書的風格推薦一部電影《奧本海默》。」這個問題幾乎都給分了,也有多個滿分。唯一的 0 分是 Claude,有大量的錯誤。

這裡可以推薦文心一言的滿分回答:🚀 《奧本海默》——天才背後的無盡傳奇天才科學家,傳奇一生。在這部電影中,我們看到了奧本海默如何在原子彈的研制中發揮了關鍵作用。每一個段落都讓人熱血沸騰,仿佛置身于那個決定曆史的重要時刻。🌌當提及奧本海默,你會想到什麼?是那個改變了世界的人,還是那個有着無盡智慧和獨特魅力的人?他的一生充滿着傳奇色彩,令人驚歎。😮這部電影用最真實的鏡頭,展現了奧本海默的生平。從他的成長到他的成就,每一個細節都讓人感慨萬千。他的才華、他的智慧、他的執着,都深深地打動了我們。💖《奧本海默》是一部讓你熱血沸騰的電影,每一個鏡頭都充滿了力量和情感。它讓我們重新認識了這位天才科學家,也讓我們對人類的智慧和力量有了更深的認識。🌟#奧本海默 #傳奇人生 #天才科學家 #曆史時刻 #電影推薦

Q3 是我工作中很實際的問題:「我的播客邀請到了馬斯克,幫我列一個跟他對談的播客提綱。」這個确實很出乎意料,可能是馬斯克的資料足夠多,各家的産品回答得都很不錯,幾乎都給了高分。也許是這種結構化的内容對于 AI 來說比較容易掌握。這也是唯一一個我真正感受到有啟發的創作題目。

這一部分的回答都很長,就不在這展開說了。我們直接看結果。

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

很神奇,從創作這一部分看,确實還是相對公認較好的三家,拔得頭籌。

那麼在内容創作這部分,推薦的 AI 産品是:

一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測
一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測
一年過去了,國産大模型怎樣了?——使用者視角的 12 家 AI 産品評測

不過這裡也再提醒一下,創作者這裡雖然得分普遍偏高,但還是由于預期和标準不同。它們能幫我們撰寫初稿、提供一些啟發,但是真正能以假亂真幫助創作,還是有很遠的路要走。

總結

最後再總結一下幾家我推薦的 AI 産品。博學家:通義千問、智譜清言、Kimi Chat

通訊員:New Bing、訊飛星火

書記員:ChatGPT、Kimi Chat

創作者:ChatGPT、通義千問、文心一言

說幾點我體驗結束的感想。1. 國産大模型雖說跟 ChatGPT 的确有很大差距,但比起 2023 年初的體驗來說,已經有了很大不同,在一些問題上的回答都很有可用性了。這種發展趨勢很樂觀,哪怕一直跟 ChatGPT 有差距,也不妨礙我們能接觸越來越好用的工具,能在一些場合下用得上。

2. 在具體的場景上,除了通義、文心這種老牌的大模型,也有幾家不錯的、之前沒接觸過的産品,使用體驗不錯,未來在寫文章、做播客的稿件時,對我的幫助很大。比如 Kimi Chat、智譜清言、訊飛星火。3. 作為同樣有财力和資源的大廠,騰訊和位元組的大模型,至少在我體驗的版本上,還有很大的差距,各位可以回顧這四個評測的分數,基本都在下遊。這點還是有點遺憾。如果按照大模型是存在先發優勢的說法,是要有危機感了。

好了,大概就到這了。再次聲明:這篇文章的所有評測都是我非常個人的主觀判斷,大家完全可以有不同的意見,包括打分的标準。也很歡迎各位朋友,尤其是産品、技術的朋友,可以在工作和生活中做一做評測,不要用網上流傳的腦筋急轉彎,而是用自己真正有需求的問題,試一試,感受一下,也可以搞一個自己的榜單。如今百模大戰,又缺乏真正使用者視角的評測标準,難免就有渾水摸魚的。我們多試試,多給具體的主觀評價,也反推這些廠商認真琢磨怎麼提升體驗,而不是去卷那些應試的考題。各位,下次評測,我們明年再見。

END

以上評測的産品位址

ChatGPT:chat.openai.com通義千問:tongyi.aliyun.com/qianwen文心一言:yiyan.baidu.comKimi Chat:kimi.moonshot.cn/chat智譜清言:chatglm.cn豆包:www.doubao.com/chatBard:bard.google.com/chat百川:www.baichuan-ai.com/chatClaude:claude.ai/chat騰訊混元:hunyuan.tencent.com/bot/chat

訊飛星火:xinghuo.xfyun.cn/desk雅意:yayi.wenge.com/chat

完整的評分表格:

題圖由 Midjourney 繪制。

繼續閱讀