天天看點

實測8款開放大模型:生成朋友圈、舔狗日記生成器

作者:搜狐科技

出品 | 搜狐科技

作者 | 梁昌均

營運編輯 | 劉于嘉

全民進入AI大模型時代!8月31日,首批8款通過備案的大模型産品正式面向公衆提供服務,從内測開始走向全民應用,生成朋友圈、舔狗日記生成器等功能引發熱議。

首批開放的大模型産品有6款來自企業,包括百度的文心一言、位元組的豆包、商湯的商量、百川智能的百川大模型、智譜華章的智譜清言、MiniMax的ABAB大模型;另外兩家來自科研機構,包括中國科學院自動化所的紫東·太初、上海人工智能實驗室的書生大模型。

這是今年8月15日正式實施的《生成式人工智能服務管理暫行辦法》提出生成式AI服務要進行備案規定後首批獲得通過的産品。此外,還有消息稱,騰訊、華為和科大訊飛的大模型産品也将在近日獲得備案通過。

這也意味着,國内發酵半年多的AI大模型熱潮終于迎來C端市場檢驗的時刻。它們可以在哪使用?有哪些特色功能?它們的能力表現如何?會像ChatGPT橫空出世時那般令人驚豔嗎?搜狐科技對此進行了實際體驗和橫向測評。

一半大模型參數超千億

僅三個推出APP版本

首批8個大模型開放後,吸引不少使用者使用。比如文心一言官網顯示,目前使用人數太多,服務可能響應緩慢,APP版本開放下載下傳12小時飙升蘋果應用商店免費榜首。目前,文心一言運作在千億參數規模的文心大模型3.5版本上,李彥宏此前稱會在年底會疊代到4.0版本。

在官網界面上,除對話框,文心一言還有四大插件,這是和另外7個大模型産品獨特之處,具體包括預設的百度搜尋、說圖解畫、E言易圖和覽卷文檔。早前釋出的用于視訊生成的一鏡流影,因所需算力較高尚未開放。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

此外,文心一言還提供了指令中心,涵蓋人物對話、創意寫作、程式設計輔助,以及招聘、求職、美食、旅行等18個細分場景。比如在人物對話中,可以模仿孔子、牛頓、魯迅,甚至是長頸鹿等的口吻或語調進行對話。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

文心一言APP頁面主要有三大闆塊:對話、社群和發現,且支援文字和語音輸入。在對話框左側和發現的靈感中心還有提示詞工具,包括常用的短視訊腳本生成、PPT大綱、文本潤色等,還包括特别受歡迎的生成朋友圈功能,其熱度值超過30萬,部分有趣的提示詞,如舔狗日記生成器等也引發談論。可以說,這些提示詞一定程度上降低了普通使用者使用的門檻。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

位元組的豆包則是基于雲雀大模型開發的AI工具,具備聊天機器人、寫作助手以及英語學習助手等功能,8月17日才開始對外測試。

目前豆包網頁版的功能相較文心一言比較單一,主要包括聊天助手小甯、寫作助手、英語學習助手和寫作潤色,同時可以選擇中英文切換。APP版本和網頁版功能差不多,但其預設使用者用語音輸入(也可文字輸入),輸出的文字也預設AI用語音回答,聊天屬性更強。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

商湯的商量則是今年4月釋出的日日新大模型體系中的自研中文語言大模型,目前已是2.0版本,參數規模超千億,能了解中文等語言的語義,并完成邏輯推理、規劃建議、内容創作、文本摘要、情感分析等任務。該産品目前僅有網頁版,且對話頁面非常簡潔。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

王小川在今年4月創辦的百川智能的對話大模型是百川大模型,其融合了意圖了解、資訊檢索以及強化學習技術,在知識問答、文本創作領域表現突出。目前也僅有網頁版,且界面也比較簡潔,僅給出了一些提問的參考。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

智譜清言是基于智譜AI的ChatGLM2模型開發,支援中英文,具備通用問答、多輪對話、創意寫作、代碼生成以及虛拟對話等能力,多模态能力還有待開放。它也提供了十多個細分場景的靈感大全,并同步在APP和微信小程式版本上,這兩個版本也支援語音輸入。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

值得一提的是,智譜清言還有青少年模式,其版本對話内容由權威教輔資料訓練生成,對話輪次和使用時間也有限制,單日可對話次數50次,每日晚22時至次日早6時無法開啟對話,需輸入密碼啟用。這是目前八個大模型産品唯一一個具有青少年模式的産品。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

Minimax的ABAB是一款先進的通用大語言模型,在語言處理能力方面突出,能夠了解和生成自然語言文本。今年3月,MiniMax 推出面向企業使用者的API開放平台,如今在Minimax開放平台上已可以體驗到基于abab5.5-chat的MM智能助理,其擁有對話、招聘等超過15個場景模闆,并可以選擇文本和語音兩種模式。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

Minimax是一家成立于2021年的公司,由商湯前副總裁闫俊傑成立,且頗受資本青睐,獲得騰訊、高瓴、IDG等金浦投資。在今年6月Minimax完成A輪2.5億美元融資後,估值超過12億美元,如今是國内估值最高的大模型初創公司之一。

最後兩個大模型産品則來自科研機構,中國科學院自動化所研發的多模态大模型紫東·太初參數達千億級别,并基于全棧國産化基礎軟硬體平台建立。它将文本、視覺、語音各個模型協同,實作三模态的統一語義表達,能完成跨模态檢測、視覺問答、語義描述等任務。今年6月,紫東·太初釋出2.0版本,加入了視訊、傳感信号、3D點雲等新的模态資料。

目前,紫東·太初尚沒有單獨的網頁版或APP産品,其上線在華為AI社群昇思大模型平台上版本更多展現的是其多模态能力,比如以圖生文、以文生圖和視覺問答等三大功能。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

最後一個則來自上海人工智能實驗室的書生通用大模型,由該機構聯合商湯、香港中文大學、上海交通大學聯合研發。目前書生大模型體系參數已達千億級别,包括書生・多模态、書生・浦語和書生・天際等三大基礎模型。不過,目前在書生大模型官網上,尚未看到體驗入口,在應用商店也并未搜到相關APP。

整體而言,從易用性來看,百度的文心一言、智譜AI的智譜清言和Minimax的ABAB的功能和場景相對豐富,提供了比較多的示例、靈感或提示詞,這能夠有效降低使用者的使用門檻。

此外,文心一言、豆包和智譜清言同時具備網頁端和移動端,且智譜清言還有小程式版本,這能夠使得它們得到更多的應用管道。通過向C端使用者開放後,這些大模型産品也有望從人類回報中得到訓練,進而推動基礎底座模型的優化。

商量整體表現較好

文心一言多模态能力突出

這些首批開放的大模型能力到底如何,搜狐科技通過官網對七個大模型産品(除書生大模型,紫東·太初主要測試多模态能力)從基本次元進行了橫向測評。

首先是在實時消息和知識問答方面,對于“國内首批通過備案、面向公衆提供服務的8個大模型有哪些?”的問題,商湯的商量全部答對,文心一言和MM智能助理都答對6個,其中MM智能助理還給出多個媒體報道的參考;百川大模型答對5個,提到了另外3個還沒有通過備案的大模型;豆包隻答對2個,智譜清言則完全回答錯誤。

實測8款開放大模型:生成朋友圈、舔狗日記生成器
實測8款開放大模型:生成朋友圈、舔狗日記生成器
實測8款開放大模型:生成朋友圈、舔狗日記生成器

從上到下(從左到右)依次為文心一言、豆包、商量、百川、智譜清言、MM智能助理的回答(下同)

對于“8款AI大模型産品面向公衆提供服務會對AI行業産生什麼影響”的回答,前述6個大模型給出不同的答案。文心一言、豆包、智譜清言、MM智能助理則給出全都是正面影響的回答,而商量、百川則相對比較全面,認為既有機遇也有挑戰,其中智譜清言、MM智能助理不會在結尾作出總結。

實測8款開放大模型:生成朋友圈、舔狗日記生成器
實測8款開放大模型:生成朋友圈、舔狗日記生成器
實測8款開放大模型:生成朋友圈、舔狗日記生成器

在邏輯推理方面,則用“樹上有9隻鳥,用槍打跑1隻,還剩下幾隻”的問題進行了測試。文心一言、豆包、MM智能助手全球都按正常的數學邏輯方法回答是8隻,而商量、百川、智譜清言最後結論都是樹上沒有鳥,且都給出了比較具體的邏輯分析。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

在數學能力方面,以今年全國聯考甲卷(文科)難度較低的題目“某校文藝部有4名學生,其中高一、高二年級各2名。從這4名學生中随機選2名組織校文藝彙演,則這2名學生來自不同年級的機率為()”的評測顯示,豆包、商量、智譜清言等都給出正确答案,而文心一言、百川在一通分析後給出錯誤答案,而MM智能助手則未作出響應。

實測8款開放大模型:生成朋友圈、舔狗日記生成器
實測8款開放大模型:生成朋友圈、舔狗日記生成器
實測8款開放大模型:生成朋友圈、舔狗日記生成器

在多模态能力方面,搜狐科技主要選取了具備此種能力的文心一言、基于商湯日日新模型的秒畫、紫東·太初等進行了測評。以“穿着紅色衣服的女孩正在登雪山,陽光從山頂揮灑下來,映着藍藍的天空”為描述生成的畫面分别如下:

實測8款開放大模型:生成朋友圈、舔狗日記生成器

從最終生成的圖檔來看,文心一言和秒畫的整體效果比紫東·太初好,對于文本的描述要素基本都有展現,且清晰度更好,而三張圖檔都明确标注出了AI作圖等類似字樣。此外,紫東·太初以文生圖的文字描述還有着30個的字數限制,或會影響最終生效的效果。

此外,圖像分析也是多模态重要的能力之一。以前述商湯秒畫生成的圖檔為例,百度文心一言借助說圖解畫的插件分析出了圖中女中的着裝、神态,甚至是心理狀态,而紫東·太初分析結果隻有一句話且錯誤,誤将女孩身後的陰影認為是滑雪闆。

實測8款開放大模型:生成朋友圈、舔狗日記生成器

從前述相對簡單的測評來看,在實時消息和知識問答方面,商湯的商量、文心一言、百川大模型表現相對較好;在邏輯推理和數學能力方面,商量和智譜清言表現更為突出。在多模态能力方面,目前僅有文心一言和紫東·太初開放相關能力,文心一言幾乎是碾壓性勝出。總體而言,目前還沒有誰是全能選手。

目前,市面上也有很多評測推出大模型能力榜單,但每個榜單的結果也有明顯出入,行業也缺乏統一權威的評測标準,但總體都還不及ChatGPT。随着首批大模型産品開放,它們将迎來更多市場使用者的檢驗,這也将大機率決定着誰能最終脫穎而出。