一年過去了，國産大模型怎樣了？——使用者視角的 12 家 AI 産品評測

源起ChatGPT-3.5 釋出于 2023 年 3 月 1 日，短短一年内，AI 已經變成幾乎所有科技公司都關注的話題，并且湧現了不少大模型。我在過去曾經做過很多輪基礎的評測，說是評測，更多還是試用，比如：位元組的豆包，與文心一言、通義千問、ChatGPT 在 9 個問題上的對比如今已經是 2024 年，我很好奇如今國産的大模型進展如何了，翻遍了中文網際網路，往往都是 PR 稿，很少有系統性的評價。要說評測，自然也有一些，比如 SuperCLUE、C-Eval，還有海外更有公信力的 MMLU，以及 FlagEval、OpenCompass 等等。包括真格基金的 Z-bench 也是很有意思的評測集。然而這些評測集都有共性的問題，主要兩點：第一，檢驗的标準更像「應試題」，比如參考的都是各種數學、實體的考試題目，而邏輯題很像公務員考試題。有的評測集喜歡用「父母結婚為什麼沒邀請我」來測試大模型的「聰明」程度，包括我之前也喜歡問這樣腦筋急轉彎的題。可各位細想，這種問題連普通人都得反應一會兒的，對 AI 來說哪怕一時沒想明白，又有什麼問題？這些評測自然有其意義，不過都不存在真正的「應用題」。就像學校裡的計算機學科學的東西，跟網際網路公司裡寫代碼所需要的東西，壓根就不是一回事兒。是以我很好奇：能不能從可用性的角度去評測一下？這是我作為産品經理更擅長的。

第二，固定題目的題庫，參賽選手是可以刷的。

這是延伸出來的問題，既然都是固定題目，那就可以定向去解決這些題目。反正 AI 大模型是黑盒，且不說投喂給 AI 對應的模拟題庫了，哪怕在模型裡寫幾段規則，諸如遇到「父母結婚為什麼沒邀請我」的問題就怎麼怎麼回答，也是神不知鬼不覺的。是以題目應該是随機出的，不應該是固定的。總的來說，我就想用自己的辦法，做一輪評測，親自感受下國産大模型的進展。

方法

既然說了是使用者視角的、面向可用性的，那我首先就認為，綜合評測沒有意義。例如，大模型 A 的創作能力很差，總結能力極好，而大模型 B 的創作和總結能力都均衡，于是就讓大模型 B 比大模型 A 評價更好、推薦使用者都去使用嗎？當然不合理。未來的 AI 産品一定是面向場景的，那自然擅長某些任務的大模型，就該按照垂直領域來評價和推薦。而且不同的場景的評價标準應該是不一樣的，舉個例子，知識類問題的「容錯率」就跟創作型問題的「容錯率」不同，如果是詢問一個很精确的新聞裡的數字，AI 胡說八道，而使用者信以為真，就非常麻煩；如果是創作内容時有一些不嚴謹的地方，則可以在後續再修正。這是不同的場景。

是以這是方法裡的第一步：分為四大場景。這四個場景都是我親身的工作生活中所需的，完全按主觀的需求出發來定義的：

博學家。代表的是一個熟悉各種曆史、社會、科學等知識的百曉生一樣的角色。我有問題可以問他，不用去翻書，不用去打聽。定義這種場景的評價标準就是：提供資訊量，并且準确，嚴禁出錯。

通訊員。代表的是能夠幫助我們搜集網際網路上的資訊的角色，跟博學家最大的差別是，能夠獲悉最新的新聞、資訊。同樣的，也是要提供準确的資訊，不能出錯。

書記員。代表的是可以幫助我們總結内容、整理摘要的角色。重點不僅在準确率，還在于召回率——能不能真正呈現更完整的内容總結，總結的是不是覆寫完全，是不是容易了解，幫助我們篩選判斷。

創作者。代表的是能直接上手幫我們寫初稿的角色。這個容易了解，重點是寫的是否有啟發、是否可以直接使用。

根據這些場景，我羅列了完全不同的問題，并且對問題的難易程度，非常主觀地給出了評分标準。具體如下：

博學家

紫禁城是誰建造的？（2）
劉備的妻子是誰？（2）
内閣首輔與宰相的差別是什麼？（3）
薩特和波伏娃的理論有哪些核心沖突？（3）
計算機采用的馮諾依曼結構的優勢是什麼？（3）

通訊員

明天去廣州，應該穿什麼衣服？（2）
你知道播客「半拿鐵」嗎？（2）
你知道原葉茶「三五杯」嗎？（2）
《年會不能停》這部電影裡，石老闆飾演的是哪個角色？（2）
俄烏戰争目前的進展是怎樣的？（4）

書記員

分析亞馬遜收入組成的【圖檔】（3）
總結一下這篇文章的中心思想（裁員還會繼續，直到回歸均值）（3）
總結一下這本書的重點：《窮爸爸富爸爸》（3）
這本書裡提到的财務自由的方式主要是？（3）

創作者

寫一首歌頌煎包的七言絕句（3）
小紅書的風格是很吸引眼球的标題、每個段落都加emoji，最後再加幾個tag。請用小紅書的風格推薦一部電影《奧本海默》（3）
我的播客邀請到了馬斯克，幫我列一個跟他對談的播客提綱（3）

評價标準再次強調，就是純主觀、帶有非常充足個人偏見的評價标準。因為大模型不是用來做題的，就是給我們用的，那對我個人而言有沒有用，我自己想給一個标準。這次我評測的大模型确實下工夫了，一共是 12 家：

ChatGPT 4(OpenAI)
通義千問（阿裡）
文心一言（百度）
Kimi Chat(MoonShot)
智譜清言
豆包（位元組跳動）
Bard(Google)
百川（王小川）
Claude(Anthropic)
混元（騰訊）
訊飛星火
雅意

其中不僅有主流大廠的幾個産品，也加入了最近試用的一些獨立團隊做的，以及國外知名的幾家。另外的一些補充說明：

測試時間為 2024 年 1 月 3 日下午；
使用的都是使用者界面的産品，并不是 API，可能有一些模型未必是最新的；
在「通訊員」的評測中，用 New Bing 代替了 ChatGPT。

我們來看下評測的過程和結果。原始資料在這裡，文章不展開放了，太多。有興趣的朋友自行去查閱：

博學家在 Q1「紫禁城是誰建造的？」這個問題下，所有的 AI 産品都給出了基礎的正确答案，即朱棣。這樣的回答都給了基礎分。而如果能提到相關的負責人（泰甯候陳珪、工部侍郎吳中、刑部侍郎張思恭）或者主要的工匠（蒯祥、楊青）等，會額外再得一分。例如這是獲得滿分 2 分的訊飛星火的答案：

紫禁城的建設始于明永樂四年（1406年），至十八年（1420年）基本建成，曆時14年。這座壯麗的皇家宮殿的建設涉及了衆多的參與者，包括農民、衛軍以及全國著名的工匠等，他們共同參與了這一偉大的工程。其中，蒯祥被記載為紫禁城的重要設計師與建造者之一。紫禁城位于北京中軸線的中心，占地面積約72萬平方米，建築面積約15萬平方米，有大小宮殿七十多座，構成了一片宏大的建築群。這座宏偉的木建構築群是曆史的産物，反映了那個時代人們高超的建築技藝和智慧。然而，值得注意的是，關于紫禁城的設計者和建設者的詳細資料并不豐富。在那個時代，工匠的社會地位不高，是以雖然參與建設的人力衆多，但留下姓名的卻寥寥無幾。盡管如此，紫禁城的壯麗壯觀無疑證明了無數人的辛勤努力和卓越才華的結晶。

在 Q2「劉備的妻子是誰？」問題下，回答就有意思得多了。雖說所有 AI 産品都煞有其事給出了回答，但如果對真實答案完全不了解的話，很可能會被誤導。這裡面有多個 AI 産品的回答我給了 0 分，分别是文心一言、Bard、Claude、訊飛星火和雅意。Bard 和 Claude 算是洋産品，情有可原，文心一言就有點說不過去了，這是它回答的一部分：吳皇後，本名吳苋，是蜀漢後主劉禅的生母，也是劉備的最後一位正妻。她性情溫順，相貌迷人，是劉備所有妻子中最幸福的一位。讓劉禅認錯媽，這是嚴重的錯誤。想來是拼湊資料所緻。

在 Q3「内閣首輔與宰相的差別是什麼？」問題下，又回到了每個 AI 産品都有基礎分數，但想說得完整、說得清楚，并不容易。這一部分沒有 0 分，滿分的也不多，是 ChatGPT、通義千問、智譜清言和 Bard。我比較認可的是通義千問這個回答。當然也不排除是參考的資料很好，不是自己總結的：内閣首輔和宰相雖然在一定程度上都涉及對國家政務的處理，但兩者在中國曆史上的權力、地位與制度背景有着顯著差別：宰相：宰相是中國古代封建社會中最高行政長官的統稱，自秦漢時期至明朝初年（明太祖廢丞相之前），宰相一職或以丞相、尚書令、中書令、侍中等不同名稱存在。宰相擁有極高的決策權，通常負責協助皇帝總攬朝政，管理全國政務，有的時期宰相甚至能夠左右國家政策走向，具有相當大的實權。内閣首輔：明朝建立後，朱元璋鑒于前朝丞相專權的曆史教訓，廢除了宰相制度，代之以内閣制度。内閣起初僅為皇帝的咨詢機構，成員多由翰林院官員兼職擔任，稱為内閣大學士。内閣首輔是内閣中地位最高的官員，盡管有時在實際操作中可能權傾一時，如張居正，但按照制度設計，内閣首輔并無法定的行政決策權和統率百官的職權。内閣首輔的主要職責是主持内閣會議，參與重要政務的商議，并通過“票拟”将内閣的意見寫在奏折上供皇帝批閱，而最終決定權仍握在皇帝手中。且明代宦官集團的權力很大，内閣首輔往往受到司禮監掌印太監行使的“批紅”權的牽制，進一步削弱了其實際權力。綜上所述，宰相和内閣首輔的最大差別在于，宰相是正式的政府首腦，有明确的法定職權和較高的政治地位；而内閣首輔更多的是一個進階顧問的角色，其權力大小很大程度上取決于皇帝的信任和授權，以及當時的政治環境，本身不具備宰相那樣的法定行政上司地位。

在 Q4「薩特和波伏娃的理論有哪些核心沖突？」問題下，幾乎都得了高分，資訊量對我而言是足的。不過我自己也還在學習中，未必能看出其中的錯漏，順便也歡迎大家去看原始回答資料幫我捉蟲。

值得一提的是，豆包在這一環節突然拉跨，一句話都說不出來，得到了唯一的一個零蛋。分享 Kimi Chat 的滿分回答：讓-保羅·薩特（Jean-Paul Sartre）和西蒙娜·德·波伏娃（Simone de Beauvoir）是20世紀法國存在主義哲學和女權主義思想的重要代表人物。他們的思想在很多方面互相影響，但也存在一些核心沖突和差異。對自由的了解：薩特強調個體的絕對自由和選擇的重要性，認為人的存在先于本質，即人是通過自己的選擇來定義自己的。而波伏娃在她的著作《第二性》中，雖然也強調女性自由的重要性，但她更關注社會結構和文化傳統對個體自由的限制，尤其是對女性自由的限制。性别角色：波伏娃在《第二性》中提出了“女性是被建構的”這一觀點，強調性别角色是社會文化建構的結果，而非生物決定。薩特雖然也支援性别平等，但他的哲學中并沒有像波伏娃那樣深入探讨性别問題。對關系的看法：薩特認為人與人的關系本質上是沖突的，因為每個人都是自由的主體，無法完全了解或控制另一個人。而波伏娃則認為，盡管存在沖突，但人與人之間仍然可以建立有意義的關系，尤其是在愛情和親密關系中。對社會責任的态度：薩特強調個體的道德責任和對社會不公的反抗，而波伏娃則更加關注社會結構對個體的影響，以及如何通過社會改革來實作性别平等。對死亡的看法：薩特認為死亡是自由的終結，是個體存在的終結，而波伏娃則在她的作品中探讨了死亡對個體存在的意義，以及如何在有限的生命中尋求價值和意義。這些沖突和差異反映了兩位思想家在性别、社會結構、人際關系和死亡等主題上的不同視角和理論取向。盡管他們在某些方面存在分歧，但他們的思想都對後世産生了深遠的影響。

Q5 的問題是「計算機采用的馮諾依曼結構的優勢是什麼？」，也屬于高分比較多的題目，回答都還不錯。就不舉例了。隻有 Bard 得到了零分。

從這 5 個題目，我們得到的結果如下：

在中文世界裡，最值得推薦的 2023 年度「AI 博學家」，就是這三位：

通訊員接下來就是能夠搜集資料的通訊員了。是不是有這樣一個助理，能幫我們把如今發生的事情都按需求提供上來呢？Q1 算是經典的生活訊息問題：「明天去廣州，應該穿什麼衣服？」在這個回答下，已經能夠判别哪些 AI 産品明确是沒有查閱網際網路能力的了，比如文心一言、訊飛星火等。比較奇怪的是，Kimi Chat 明明可以檢視網際網路，卻沒有主動搜集天氣資訊，反而給出這樣的答案：

要确定明天去廣州穿什麼衣服，首先需要檢視廣州當地的天氣預報。廣州位于中國南部，屬于亞熱帶氣候，四季分明，溫暖濕潤，夏季炎熱，冬季溫暖。請檢視最新的廣州天氣預報，了解明天的氣溫、濕度、降雨機率等資訊。如果明天氣溫較高，建議穿着輕薄透氣的衣物，如短袖、短褲或裙子，以及舒适的鞋子。如果氣溫較低或有降雨的可能，可以攜帶一件薄外套或雨具，以防不時之需。請注意，由于氣候變化和個人舒适度差異，建議您根據最新的天氣預報和自己的感覺來選擇合适的服裝。而多個 AI 産品獲得滿分 2 分，比如百川：

明天的廣州天氣為多雲，最低氣溫12°C，最高氣溫22°C，風向為北風1級，濕度為46%。是以，建議您穿着長袖襯衫或薄毛衣，外加一件外套，以應對氣溫的變化。同時，由于風力較小，濕度适中，您可能會感到舒适。請注意，這些建議僅供參考，具體着裝應根據您的個人需求和舒适度進行調整。

Q2 的問題是：你知道播客「半拿鐵」嗎？「半拿鐵」的建立時間是 2023 年上半年，網際網路上出現了一些資訊資訊是在下半年。是以這很依賴 AI 産品的兩個能力：能不能查詢近期的資訊；能不能查到這種小衆的資訊。結果很出人意料，但凡能聯網的 AI 産品，都給出了正确答案。最驚奇的是通義千問的回答，甚至把最新一期的主題講了出來，而最新一期的釋出僅在 6 天前：是的，播客「半拿鐵」是一檔以商業故事為主題的中文播客節目，由劉飛和潇磊共同主持。節目中涉及的話題廣泛，不僅講述科技巨頭如亞馬遜及其創始人貝佐斯的故事，還涵蓋了商業曆史、企業興衰以及商業模式等各類商業話題。該播客以其獨特的叙事風格——類似相聲般的插科打诨方式來科普商業知識，深受聽衆喜愛，在喜馬拉雅等平台上擁有較高的播放量，并且在 2023 年時登上了相關播客排行榜。此外，「半拿鐵」還與「沒品商店」合作推出過周邊産品，例如T恤等，進一步擴大了其品牌影響力。節目的更新保持着活躍狀态，不斷吸引新的訂閱者并維系着現有的忠實聽衆群體。

Q3 的問題更小衆，網際網路上的訊息不多：你知道原葉茶「三五杯」嗎？由于資訊比較少，就開始出現瞎編亂造的情況了，比如New Bing(ChatGPT) 的回答，編造了名字的來源：是的，「三五杯」是一個原葉茶品牌，由劉飛等人共同創立。該品牌的名字來源于中國古代文化中的「三五制」，寓意着「天人合一」的哲學思想或者百川的回答，說錯了公司：是的，我知道原葉茶「三五杯」。這是由廈門三五茶業有限公司生産的一款原葉茶産品。「三五杯」強調原葉茶的淡雅風味，茶葉的苦澀度也偏低。此外，他們還推出了冷泡茶系列，茶包倒入常溫水中，30秒即可飲用，整體的口味協調、有層次感。還有 Bard 的回答，把我在「半拿鐵」的搭檔當成了合夥人：當然知道。三五杯是一家原葉茶品牌，由劉飛和潇磊創立于2022年。三五杯的理念是“讓原葉茶更簡單”，緻力于為消費者提供高品質、便捷的茶葉産品。對于長尾資訊就開始編造，可能是 AI 在作為「通訊員」時面臨的比較大的問題。

Q4 屬于比較過分的問題了，更加小衆：「《年會不能停》這部電影裡，石老闆飾演的是哪個角色？」但反而得到了意想不到的結果。有 6 個 AI 産品居然準确答對了。比如智譜清言的回答：根據您提供的資訊，電影《年會不能停》中，石老闆飾演的角色是部門長乙。這部電影是一部喜劇片，講述了鉗工胡建林陰差陽錯被調入集團總部成為金領，在集團年會上揭露了工廠貪腐的高管的故事。石老闆在影片中的角色可能是與胡建林有關的職場角色，但具體的角色細節和劇情發展需要通過觀看電影來了解。而有幾個 AI 産品答對了一半，卻編造了另一半，也屬于這種長尾、小衆的資訊，會随意加料的問題。

比如 Bard 的回答，甚至編造了幾句不存在的台詞：在電影《年會不能停》中，石老闆飾演的是部門長乙。以下是部門長乙在電影中的部分台詞：“年會是企業文化的重要組成部分，不能輕易取消。”“我認為，年會是員工們展示自己才華、團結協作的舞台。”“我希望公司能夠重新舉辦年會，讓員工們有一個愉快的假期。”部門長乙這個角色是一個非常有代表性的職場人物。他身上既有優點，也有缺點。他是一個值得我們思考和反思的角色。

Q5 「俄烏戰争目前的進展是怎樣的？」是我作為 AI 産品的使用者最迫切需要的一種問題，我是知道目前的 AI 很難完成的，但依然想試一試，并且給出了 4 分滿分的評價範圍。不過結果沒有超出預期，最高分也隻給到 1 分。其中有不少 AI 産品表示問題敏感，都拒絕回答，而回答的幾個，也都在說片兒湯話，并沒有給出有參考價值的答案。混元（騰訊）的回答很有代表性：

俄烏戰争自2022年2月24日爆發以來，至今已經持續了超過672天。在這場戰争中，雙方都付出了巨大的代價。以下是關于俄烏戰争最新進展的概述：偷襲與報複：近期，烏克蘭軍隊對克裡米亞的費奧多西亞地區發動空中打擊，成功摧毀俄黑海艦隊“新切爾卡斯克”号登陸艦。作為回應，俄羅斯對烏克蘭境内多個目标發動大規模空襲，包括基輔、哈爾科夫、第聶伯羅和敖德薩州等地。前線戰場：俄軍在戰場上取得重要勝利，主動出擊殲滅烏軍有生力量。例如，俄軍在馬林卡戰役中取得勝利，進一步削弱了烏軍前線作戰能力。地緣政治：俄烏戰争對全球政治格局産生重要影響。例如，美國向烏克蘭提供軍事援助，包括大殺傷力集束炸彈，引發國際社會的關注和擔憂。戰争損失：截至目前，戰争已造成大量人員傷亡和财産損失。據報道，超過400名烏克蘭運動員在戰争中去世。總之，俄烏戰争目前仍在持續，雙方在前線和後方展開激烈戰鬥。在這場戰争中，無辜平民的生命和财産遭受巨大損失，國際社會應繼續緻力于通過外交途徑解決争端，早日實作和平。

這個問題的回答是我整個評測中最不滿意的。從這個角度看，AI 真正成為我們資訊的助理，還道阻且長。可以說這個題，大家都拿不到什麼分。

這是整體的評分結果：

那麼在「通訊員」方面，推薦大家使用的 AI 産品就是：

不過說句實話，目前在這個需求場景上，大家都做得不夠。哪怕這兩位，也都是隻對了三道題的。能夠得最高分，有點運氣的成分。

書記員

書記員就完成很簡單的一件事：總結。一張圖有什麼内容、一篇文章講了什麼、一本書的重點是什麼。隻考察這幾條。Q1 是解讀這一張亞馬遜的收入組成圖，略有難度：

對于圖檔解讀，很多 AI 産品本身并不支援，就隻好 0 分。而支援的 AI 産品裡，你大爺還是你大爺，ChatGPT 穩居滿分。還有幾個雖說可以解讀，但出現了非常嚴重的事實錯誤，不仔細看都看不出，就隻能給 0 分。比如 Kimi Chat 回答中的一段：

銷售和市場（S&M）：成本為106億美元，同比增長6%。一般及行政（G&A）：成本為2.6億美元，同比增長1%。其他營業費用（Other opex）：成本為0.2億美元。其中 26 億的 G&A 成本寫成了 2.6 億、其它成本 2 億寫成了 0.2 億。S&M 的同比增長應該是 1%，寫成了 6%。

Q2 是總結這篇文章的中心思想（裁員還會繼續，直到回歸均值），這個問題是用多種輸入方式完成的，有的 AI 産品支援直接輸傳入連結接，有的支援上傳 Word 文檔，有的則隻能直接輸入完整文字。我比較關心的是準确率和召回率，即是不是能完整描述文章裡主要的觀點。最終的結果看，我給出滿分的有 Kimi Chat、Bard 和 Claude。比如 Bard 的回答如下：

這篇文章的中心思想可以概括為以下幾點：

網際網路行業的增長已到頂，創新機會減少。
大廠的員工招募本就是非理性的，導緻員工成本過高。
大廠員工的能力在别處無法複用。
裁員潮是網際網路行業回歸均值的表現。
網際網路行業的黃金時代已過，網際網路人需要重新認知職場和個人選擇。

具體來說，文章首先指出，網際網路行業的增長已到頂，創新機會減少。這意味着，網際網路行業的高速發展時代已經過去，網際網路企業需要尋找新的增長點。

其次，文章指出，大廠的員工招募本就是非理性的，導緻員工成本過高。大廠往往會采用“加人”的方式來解決問題，這導緻員工成本大幅增加。而這些員工的能力在别處無法複用，是以裁員是必然的。

第三，文章指出，網際網路行業的黃金時代已過，網際網路人需要重新認知職場和個人選擇。網際網路人需要意識到，網際網路行業的薪酬高并不意味着工作價值高，也需要做好裁員的準備。

最後，文章指出，資訊差有的時候是緻命的。網際網路人需要及時了解行業動态，做好職業規劃，才能在變局中立于不敗之地。

總而言之，這篇文章對網際網路行業的未來發展進行了深入的分析，為網際網路人提供了一些有益的思考。

當然這一題目我自己反思過，不是特别公正，因為像 ChatGPT、通義千問、文心一言等 AI，在追問之下可能會答出更具體的内容，并沒有測試更多上下文的内容。這點遺憾，我在 Q4 做了補充的檢驗。

Q3 「總結一下這本書的重點：《窮爸爸富爸爸》」與 Q2 類似，是做完整一本書的總結。而且為了防止出現一次性回答不太公平的問題，增加了 Q4 ：「這本書裡提到的财務自由的方式主要是？」這兩道題的限制比較大，多個 AI 産品根本沒法上傳文檔，像 Claude 雖然可以上傳，但是超過了大小限制。能夠回答的不多，而回答的裡面，都還不錯。對于追問的 Q4 來說，Kimi Chat 和智譜清言的表現很好，都是滿分。

比如智譜清言的回答：根據文檔内容，這本書裡提到的财務自由的主要方式包括：提高财務知識，學習如何管理金錢和投資。例如，了解資産和負債的差別，購買能帶來收入的資産等。謹慎選擇朋友，結交有财務知識和成功的朋友。掌握一種模式，如投資房地産或股票，并從中獲得收入。首先支付自己，不要輕易背上債務。給你的經紀人優厚的報酬，因為他們能幫你創造财富。做“印第安給予者”，先付出後得到。用資産購買奢侈品，而不是用負債。對英雄的崇拜，學習他們的成功經驗。先予後取，慷慨地給予。采取行動，不要隻停留在思想上。綜上，這本書主要通過提高财務知識和技能，謹慎投資，控制支出，增加收入等方式，來達到财務自由的目的。

這一部分很多 AI 産品都受限制，是以有得分的本來就不多。結果如下：

那麼推薦使用的「書記員」産品就是：

不過也要注意，剛剛說的在識圖方面有嚴重錯漏的就是 Kimi Chat。是以文檔識别可以用 Kimi Chat，識圖就還是用 ChatGPT 吧。

創作者

這估計是很多朋友都非常關心的，内容創作上能不能幫到我們。這一部分評測較為簡單，隻做了 3 個問題，因為閱卷太累了...

Q1 是「寫一首歌頌煎包的七言絕句」。這個問題除了外來的朋友 Claude 回答的是稀碎，其它的 AI 産品至少能滿足「七言」這個要求，就給了基礎分。如果沒有押韻，肯定是要扣分的。我最喜歡的兩首分别是 ChatGPT 創作的：煎包香氣滿街傳，金黃酥脆美味鮮。一口湯汁甜如蜜，回味無窮人歡顔。和通義千問創作的：香煎滿鍋白玉包，油潤面皮金黃焦。餡心醇厚汁液美，人間至味是清早。它們都算作是滿分。可以假裝是普通人寫的，沒有太多破綻了。

Q2 是老問題了，這次換了電影：「小紅書的風格是很吸引眼球的标題、每個段落都加emoji，最後再加幾個tag。請用小紅書的風格推薦一部電影《奧本海默》。」這個問題幾乎都給分了，也有多個滿分。唯一的 0 分是 Claude，有大量的錯誤。

這裡可以推薦文心一言的滿分回答：🚀 《奧本海默》——天才背後的無盡傳奇天才科學家，傳奇一生。在這部電影中，我們看到了奧本海默如何在原子彈的研制中發揮了關鍵作用。每一個段落都讓人熱血沸騰，仿佛置身于那個決定曆史的重要時刻。🌌當提及奧本海默，你會想到什麼？是那個改變了世界的人，還是那個有着無盡智慧和獨特魅力的人？他的一生充滿着傳奇色彩，令人驚歎。😮這部電影用最真實的鏡頭，展現了奧本海默的生平。從他的成長到他的成就，每一個細節都讓人感慨萬千。他的才華、他的智慧、他的執着，都深深地打動了我們。💖《奧本海默》是一部讓你熱血沸騰的電影，每一個鏡頭都充滿了力量和情感。它讓我們重新認識了這位天才科學家，也讓我們對人類的智慧和力量有了更深的認識。🌟#奧本海默 #傳奇人生 #天才科學家 #曆史時刻 #電影推薦

Q3 是我工作中很實際的問題：「我的播客邀請到了馬斯克，幫我列一個跟他對談的播客提綱。」這個确實很出乎意料，可能是馬斯克的資料足夠多，各家的産品回答得都很不錯，幾乎都給了高分。也許是這種結構化的内容對于 AI 來說比較容易掌握。這也是唯一一個我真正感受到有啟發的創作題目。

這一部分的回答都很長，就不在這展開說了。我們直接看結果。

很神奇，從創作這一部分看，确實還是相對公認較好的三家，拔得頭籌。

那麼在内容創作這部分，推薦的 AI 産品是：

不過這裡也再提醒一下，創作者這裡雖然得分普遍偏高，但還是由于預期和标準不同。它們能幫我們撰寫初稿、提供一些啟發，但是真正能以假亂真幫助創作，還是有很遠的路要走。

總結

最後再總結一下幾家我推薦的 AI 産品。博學家：通義千問、智譜清言、Kimi Chat

通訊員：New Bing、訊飛星火

書記員：ChatGPT、Kimi Chat

創作者：ChatGPT、通義千問、文心一言

說幾點我體驗結束的感想。1. 國産大模型雖說跟 ChatGPT 的确有很大差距，但比起 2023 年初的體驗來說，已經有了很大不同，在一些問題上的回答都很有可用性了。這種發展趨勢很樂觀，哪怕一直跟 ChatGPT 有差距，也不妨礙我們能接觸越來越好用的工具，能在一些場合下用得上。

2. 在具體的場景上，除了通義、文心這種老牌的大模型，也有幾家不錯的、之前沒接觸過的産品，使用體驗不錯，未來在寫文章、做播客的稿件時，對我的幫助很大。比如 Kimi Chat、智譜清言、訊飛星火。3. 作為同樣有财力和資源的大廠，騰訊和位元組的大模型，至少在我體驗的版本上，還有很大的差距，各位可以回顧這四個評測的分數，基本都在下遊。這點還是有點遺憾。如果按照大模型是存在先發優勢的說法，是要有危機感了。

好了，大概就到這了。再次聲明：這篇文章的所有評測都是我非常個人的主觀判斷，大家完全可以有不同的意見，包括打分的标準。也很歡迎各位朋友，尤其是産品、技術的朋友，可以在工作和生活中做一做評測，不要用網上流傳的腦筋急轉彎，而是用自己真正有需求的問題，試一試，感受一下，也可以搞一個自己的榜單。如今百模大戰，又缺乏真正使用者視角的評測标準，難免就有渾水摸魚的。我們多試試，多給具體的主觀評價，也反推這些廠商認真琢磨怎麼提升體驗，而不是去卷那些應試的考題。各位，下次評測，我們明年再見。

END

以上評測的産品位址

ChatGPT：chat.openai.com通義千問：tongyi.aliyun.com/qianwen文心一言：yiyan.baidu.comKimi Chat：kimi.moonshot.cn/chat智譜清言：chatglm.cn豆包：www.doubao.com/chatBard：bard.google.com/chat百川：www.baichuan-ai.com/chatClaude：claude.ai/chat騰訊混元：hunyuan.tencent.com/bot/chat

訊飛星火：xinghuo.xfyun.cn/desk雅意：yayi.wenge.com/chat

完整的評分表格：

題圖由 Midjourney 繪制。

一年過去了，國産大模型怎樣了？——使用者視角的 12 家 AI 産品評測

繼續閱讀

華為開發者大會：HarmonyOS Next系統、盤古5.0大模型等技術亮相

中國産戰機墜毀，英國巨頭暗自慶祝，印媒看笑話，剛簽了出口大單

今日同時上映的3部國産電影，每部都頗具看點，哪部值得一看？

新款“拉花”曝光，國産TOYOTA普拉多開啟“大批量”傳遞

#軟體開發如何了解DevOps這個詞？#DevOps是“Development”和“Operations”兩個詞的組合，

美國關稅政策下中國綠色産品的市場挑戰

大模型在持續學習領域的最新研究進展與綜述

劉亦菲用“38萬的耳環”，讓觀衆看清國産劇假窮人有多離譜

【好文轉發】大模型為什麼能把業務系統拉通?

換新DIY産品首選京東618 6月15日晚8京東DIY産品限量五折價

7.98萬的比亞迪，讓國産車企大佬互撕！

傷害性不大，侮辱性極強餘承東說的這番話不知道多少友商要被氣哭這招先禮後兵怕是比戰國時的孫膑也有過之而無不及，說有一萬點暴

阿裡通義Qwen2拿下大模型最新測評全球開源第一周鴻祎發文祝賀：未來開源模式一定會超過閉源

一季度智能手機市場：蘋果暴跌，國産加速出海，vivo面臨掉隊

#姜萍爆火漣水文旅笑容要藏不住了#在利用姜萍的熱度進行宣傳推廣時，漣水文旅需要注意以下幾個問題：- 尊重本人意願：在宣傳

電商售賣問題玩具遭頻繁投訴産品有毒物質超标270倍