實測8款開放大模型：生成朋友圈、舔狗日記生成器

出品 | 搜狐科技

作者 | 梁昌均

營運編輯 | 劉于嘉

全民進入AI大模型時代！8月31日，首批8款通過備案的大模型産品正式面向公衆提供服務，從内測開始走向全民應用，生成朋友圈、舔狗日記生成器等功能引發熱議。

首批開放的大模型産品有6款來自企業，包括百度的文心一言、位元組的豆包、商湯的商量、百川智能的百川大模型、智譜華章的智譜清言、MiniMax的ABAB大模型；另外兩家來自科研機構，包括中國科學院自動化所的紫東·太初、上海人工智能實驗室的書生大模型。

這是今年8月15日正式實施的《生成式人工智能服務管理暫行辦法》提出生成式AI服務要進行備案規定後首批獲得通過的産品。此外，還有消息稱，騰訊、華為和科大訊飛的大模型産品也将在近日獲得備案通過。

這也意味着，國内發酵半年多的AI大模型熱潮終于迎來C端市場檢驗的時刻。它們可以在哪使用？有哪些特色功能？它們的能力表現如何？會像ChatGPT橫空出世時那般令人驚豔嗎？搜狐科技對此進行了實際體驗和橫向測評。

一半大模型參數超千億

僅三個推出APP版本

首批8個大模型開放後，吸引不少使用者使用。比如文心一言官網顯示，目前使用人數太多，服務可能響應緩慢，APP版本開放下載下傳12小時飙升蘋果應用商店免費榜首。目前，文心一言運作在千億參數規模的文心大模型3.5版本上，李彥宏此前稱會在年底會疊代到4.0版本。

在官網界面上，除對話框，文心一言還有四大插件，這是和另外7個大模型産品獨特之處，具體包括預設的百度搜尋、說圖解畫、E言易圖和覽卷文檔。早前釋出的用于視訊生成的一鏡流影，因所需算力較高尚未開放。

此外，文心一言還提供了指令中心，涵蓋人物對話、創意寫作、程式設計輔助，以及招聘、求職、美食、旅行等18個細分場景。比如在人物對話中，可以模仿孔子、牛頓、魯迅，甚至是長頸鹿等的口吻或語調進行對話。

文心一言APP頁面主要有三大闆塊：對話、社群和發現，且支援文字和語音輸入。在對話框左側和發現的靈感中心還有提示詞工具，包括常用的短視訊腳本生成、PPT大綱、文本潤色等，還包括特别受歡迎的生成朋友圈功能，其熱度值超過30萬，部分有趣的提示詞，如舔狗日記生成器等也引發談論。可以說，這些提示詞一定程度上降低了普通使用者使用的門檻。

位元組的豆包則是基于雲雀大模型開發的AI工具，具備聊天機器人、寫作助手以及英語學習助手等功能，8月17日才開始對外測試。

目前豆包網頁版的功能相較文心一言比較單一，主要包括聊天助手小甯、寫作助手、英語學習助手和寫作潤色，同時可以選擇中英文切換。APP版本和網頁版功能差不多，但其預設使用者用語音輸入（也可文字輸入），輸出的文字也預設AI用語音回答，聊天屬性更強。

商湯的商量則是今年4月釋出的日日新大模型體系中的自研中文語言大模型，目前已是2.0版本，參數規模超千億，能了解中文等語言的語義，并完成邏輯推理、規劃建議、内容創作、文本摘要、情感分析等任務。該産品目前僅有網頁版，且對話頁面非常簡潔。

王小川在今年4月創辦的百川智能的對話大模型是百川大模型，其融合了意圖了解、資訊檢索以及強化學習技術，在知識問答、文本創作領域表現突出。目前也僅有網頁版，且界面也比較簡潔，僅給出了一些提問的參考。

智譜清言是基于智譜AI的ChatGLM2模型開發，支援中英文，具備通用問答、多輪對話、創意寫作、代碼生成以及虛拟對話等能力，多模态能力還有待開放。它也提供了十多個細分場景的靈感大全，并同步在APP和微信小程式版本上，這兩個版本也支援語音輸入。

值得一提的是，智譜清言還有青少年模式，其版本對話内容由權威教輔資料訓練生成，對話輪次和使用時間也有限制，單日可對話次數50次，每日晚22時至次日早6時無法開啟對話，需輸入密碼啟用。這是目前八個大模型産品唯一一個具有青少年模式的産品。

Minimax的ABAB是一款先進的通用大語言模型，在語言處理能力方面突出，能夠了解和生成自然語言文本。今年3月，MiniMax 推出面向企業使用者的API開放平台，如今在Minimax開放平台上已可以體驗到基于abab5.5-chat的MM智能助理，其擁有對話、招聘等超過15個場景模闆，并可以選擇文本和語音兩種模式。

Minimax是一家成立于2021年的公司，由商湯前副總裁闫俊傑成立，且頗受資本青睐，獲得騰訊、高瓴、IDG等金浦投資。在今年6月Minimax完成A輪2.5億美元融資後，估值超過12億美元，如今是國内估值最高的大模型初創公司之一。

最後兩個大模型産品則來自科研機構，中國科學院自動化所研發的多模态大模型紫東·太初參數達千億級别，并基于全棧國産化基礎軟硬體平台建立。它将文本、視覺、語音各個模型協同，實作三模态的統一語義表達，能完成跨模态檢測、視覺問答、語義描述等任務。今年6月，紫東·太初釋出2.0版本，加入了視訊、傳感信号、3D點雲等新的模态資料。

目前，紫東·太初尚沒有單獨的網頁版或APP産品，其上線在華為AI社群昇思大模型平台上版本更多展現的是其多模态能力，比如以圖生文、以文生圖和視覺問答等三大功能。

最後一個則來自上海人工智能實驗室的書生通用大模型，由該機構聯合商湯、香港中文大學、上海交通大學聯合研發。目前書生大模型體系參數已達千億級别，包括書生・多模态、書生・浦語和書生・天際等三大基礎模型。不過，目前在書生大模型官網上，尚未看到體驗入口，在應用商店也并未搜到相關APP。

整體而言，從易用性來看，百度的文心一言、智譜AI的智譜清言和Minimax的ABAB的功能和場景相對豐富，提供了比較多的示例、靈感或提示詞，這能夠有效降低使用者的使用門檻。

此外，文心一言、豆包和智譜清言同時具備網頁端和移動端，且智譜清言還有小程式版本，這能夠使得它們得到更多的應用管道。通過向C端使用者開放後，這些大模型産品也有望從人類回報中得到訓練，進而推動基礎底座模型的優化。

商量整體表現較好

文心一言多模态能力突出

這些首批開放的大模型能力到底如何，搜狐科技通過官網對七個大模型産品（除書生大模型，紫東·太初主要測試多模态能力）從基本次元進行了橫向測評。

首先是在實時消息和知識問答方面，對于“國内首批通過備案、面向公衆提供服務的8個大模型有哪些？”的問題，商湯的商量全部答對，文心一言和MM智能助理都答對6個，其中MM智能助理還給出多個媒體報道的參考；百川大模型答對5個，提到了另外3個還沒有通過備案的大模型；豆包隻答對2個，智譜清言則完全回答錯誤。

從上到下（從左到右）依次為文心一言、豆包、商量、百川、智譜清言、MM智能助理的回答（下同）

對于“8款AI大模型産品面向公衆提供服務會對AI行業産生什麼影響”的回答，前述6個大模型給出不同的答案。文心一言、豆包、智譜清言、MM智能助理則給出全都是正面影響的回答，而商量、百川則相對比較全面，認為既有機遇也有挑戰，其中智譜清言、MM智能助理不會在結尾作出總結。

在邏輯推理方面，則用“樹上有9隻鳥，用槍打跑1隻，還剩下幾隻”的問題進行了測試。文心一言、豆包、MM智能助手全球都按正常的數學邏輯方法回答是8隻，而商量、百川、智譜清言最後結論都是樹上沒有鳥，且都給出了比較具體的邏輯分析。

在數學能力方面，以今年全國聯考甲卷（文科）難度較低的題目“某校文藝部有4名學生，其中高一、高二年級各2名。從這4名學生中随機選2名組織校文藝彙演，則這2名學生來自不同年級的機率為（）”的評測顯示，豆包、商量、智譜清言等都給出正确答案，而文心一言、百川在一通分析後給出錯誤答案，而MM智能助手則未作出響應。

在多模态能力方面，搜狐科技主要選取了具備此種能力的文心一言、基于商湯日日新模型的秒畫、紫東·太初等進行了測評。以“穿着紅色衣服的女孩正在登雪山，陽光從山頂揮灑下來，映着藍藍的天空”為描述生成的畫面分别如下：

從最終生成的圖檔來看，文心一言和秒畫的整體效果比紫東·太初好，對于文本的描述要素基本都有展現，且清晰度更好，而三張圖檔都明确标注出了AI作圖等類似字樣。此外，紫東·太初以文生圖的文字描述還有着30個的字數限制，或會影響最終生效的效果。

此外，圖像分析也是多模态重要的能力之一。以前述商湯秒畫生成的圖檔為例，百度文心一言借助說圖解畫的插件分析出了圖中女中的着裝、神态，甚至是心理狀态，而紫東·太初分析結果隻有一句話且錯誤，誤将女孩身後的陰影認為是滑雪闆。

從前述相對簡單的測評來看，在實時消息和知識問答方面，商湯的商量、文心一言、百川大模型表現相對較好；在邏輯推理和數學能力方面，商量和智譜清言表現更為突出。在多模态能力方面，目前僅有文心一言和紫東·太初開放相關能力，文心一言幾乎是碾壓性勝出。總體而言，目前還沒有誰是全能選手。

目前，市面上也有很多評測推出大模型能力榜單，但每個榜單的結果也有明顯出入，行業也缺乏統一權威的評測标準，但總體都還不及ChatGPT。随着首批大模型産品開放，它們将迎來更多市場使用者的檢驗，這也将大機率決定着誰能最終脫穎而出。