大模型“聚會”：國内卷價格，國外卷能力

撰文 | 曹雙濤

編輯 | 楊博丞

題圖 | IC Photo

在中美AI大模型的競争上，正衍生出兩種不同的路徑。

繼中原標準時間5月14日淩晨OpenAI春季釋出會上，OpenAI推出兼具聽、看、說能力的GPT-4o後。中原標準時間5月15日淩晨谷歌I/O開發者大會上，谷歌CEO桑達爾·皮查伊釋出數十款Google和AI 結合産品，堪稱“全家桶”級别，全面圍剿Open AI。

其中包括支援200萬token長文本的Gemini 1.5 Pro和 Gemini 1.5 Flash，對标Sora的Veo，開源模型Gemma 2，支援生成式搜尋的AI Overviews、第六代TPU等。

整場開發者大會最大的看點為，谷歌推出的AI語音助手——Astra，它能夠通過攝像頭識别物體、代碼和各種東西。現場示範視訊中，使用者要求Astra在看到發出聲音的東西時告訴她，助手回答說，它可以看到一個發出聲音的揚聲器。對于一閃而過的蘋果，Astra居然也能夠準确回答出在眼鏡旁邊。

除Astra外，谷歌還推出基于Gemini的多款通用AI Agent子系列産品。如音頻的NotebookLM、音樂的Music AI Sandbox、視訊的Veo、圖像的Imagen 3，直接對标OpenAI釋出的GPT-4o、Dall-E和Sora。

和谷歌、OpenAI圍繞技術之争不同的是，國内大模型或将迎來價格戰時代。在5月15日位元組舉辦2024春季火山引擎Force原動力大會上，位元組推出3款AI産品，包括AI生圖産品 PicPic、AI 教育産品河馬愛學、AI 劇情互動産品貓箱。

除這三款産品外，位元組面向TOC端的産品還包括定位AI教育的Gauth，定位AI對話的豆包和CiCi；定位AI工具的小悟空ChitChop；定位Al Bot建立平台的Coze和扣子；定位AI互動劇情的BagelBel等。

但位元組率先啟動行業價格戰，火山引擎總裁譚待表示，豆包大模型将開啟付費商業化，且定價遠低于行業價格。以豆包通用模pro-32k版為例，模型推理輸入價格僅為0.0008元/千Tokens。市面上同規格模型的定價一般為0.12元/千Tokens，是豆包模型價格的150倍。

位元組本輪降價後，後續國内其他大模型廠商或将跟随。但降價能否幫助國内大模型廠商帶來更多新增使用者和付費使用者，仍值得商榷。

GPT-4o和谷歌Gemini不斷宣傳現階段AI能力大幅度提高，兩家誰的大模型能力更強呢？基于此，我們也對GPT-4o和Gemini展開了多元度的測試。

一、文本輸出：Gemini和GPT-4o愈發接近，部分能力已趕超

因GPT-4o和Gemini均屬于世界TOP級的大模型，在測試兩家大模型的文本輸出能力上，我們直接将難度更新。

為什麼很多國家仍以油車為主？你覺得影響新能源汽車海外滲透率提高的因素有哪些？我們将這一問題同時給到GPT-4o和Gemini，二者均指出充電基礎設施建設、購置成本、技術進步、政策支援、消費者文化習慣是很多國家仍以燃油車為主的原因。

但相較于GPT-4o，Gemini不僅識别到我們提問的是兩個問題，且均給出答案，也回答出GPT-4o沒有指出的車企方面、宣傳教育方面的問題。也就是說，Gemini的回答可能更為完整。

圖源：基于Gemini和GPT-4o生成内容整理 DoNews制圖

我們繼續追問要求兩個大模型同時給我們撰寫一份10000字全球新能源汽車報告，并要求報告中需要包括行業價格戰、電池技術、未來發展方向、産業趨勢。

但此時兩個大模型的表現已經出現明顯差異，GPT-4o給我們生成七大章節的架構，每個架構下也要對應的小架構。但就是不輸出我們要求的内容，這或許和目前GPT-4o在長文本能力上的欠佳有關。

圖源：GPT-4o官網

Gemini雖給我們具體的文本内容，但全文1679字和我們要求的萬字報告差距較大。内容被大幅度壓縮後，整個内容品質也相對欠佳。

如在提到新能源汽車産業趨勢發展上，Gemini給出的内容為産業鍊整合、跨界合作、國際化競争，每條内容僅有一句話進行概括。換言之，在真正涉及行業專業性問題上，Gemini和GPT-4o均存在不同程度的短闆。

圖源：Gemini官網

當我們将難度繼續提高後，詢問為什麼今年以來全球大宗商品價格持續上漲？這種漲幅帶來的影響有哪些？未來價格是否會回落？在首問中GPT-4o和Gemini給出的答案有所相同，均指出和供應鍊、地緣沖突、全球經濟等因素有關。且在未來價格走勢預測中，兩者給到的答案也基本相同。

但在漲幅所帶來的影響上，Gemini給出的答案可能更為完整。尤其是在金融、企業利潤、社會等方面的影響，GPT-4o并未指出。

圖源：基于Gemini和GPT-4o生成内容整理 DoNews制圖

在文本内容快速分析上，我們讓兩款大模型同時給我們分析安克創新2024年Q1财報中存在的風險點，GPT-4o生成的風險點包括現金流減少、高額的銷售費用和管理費用、财務費用大幅度波動、公允價值帶來損失這四點。

圖源：GPT-4o官網

但Gemini給出的内容卻包括營收增速放緩、經營活動大幅度下降、銷售費用和管理費用大幅度增加、存貨跌價損失增加、彙兌大幅度增加、對政府補助依賴這六點。這也不能看出，Gemini的回答更為完整。

圖源：Gemini官網

而當我們要求兩款大模型同時以如何幫助失戀的人走出陰影，寫一篇2000字的文章。要求文章有觀點，并且文章内需要配上對應的圖檔和音頻，Gemini的表現可以說完全吊打GPT-4o。

在文章開頭，Gemini直接放入一曲舒緩的音樂，且這個音樂也支援播放。每個細分章節下，Gemini直接從網站上檢索到和内容相關的圖檔，實作OpenAI提到的文本、音頻、圖像的任意組合。

圖源：Gemini官網

對比之下，GPT-4o給到的内容就有些遜色。除文章開始處能看到圖檔外，其餘正文處均未看到任何和内容相關的圖檔，且全文中也看不到音頻。

圖源：GPT-4o官網

整體測試下來後我們發現，谷歌在生成式AI領域尤其在文本能力輸出上已經從“落後”到追趕，甚至内容品質上、内容組合等能力上已經超過GPT-4o。

二、對比之下，Gemini綜合能力不容忽視

在測試過程中，我們發現Gemini不僅支援文本内容提問，且也支援語音提問。但因國内網絡受限，暫無法對語音功能進行測試，也無法判斷這是否為谷歌釋出會上提到的Astra。相較于谷歌的快速，GPT-4o目前仍是支援單一的文本内容提問。

圖源：Gemini官網

圖源：GPT-4o官網

深耕搜尋行業多年的谷歌，讓目前的Gemini也能實作AI檢索。且這種檢測不僅包括圖文網頁也包括視訊。當我們要求Gemini以汽車安全為核心，生産一個20-30S的視訊時，Gemini先是給出了我們具體的視訊腳本。

當我們繼續追問你能我們直接生成視訊嗎？Gemini的回答有些超過我們的預期，直接給到我們幾個YouTube的相關連結。且這些連結居然也無須跳轉YouTube上觀看，在Gemini大模型内也能實作自動播放。

圖源：Gemini官網

對比之下，GPT-4o雖也能根據我們的要求輸出對應的視訊腳本，但卻并不具備Gemini的這些功能。

圖源：GPT-4o官網

值得注意的是，Gemini和GPT-4o目前均不支援音頻、視訊内容識别，且Gemini目前也不支援圖檔生成功能。支援圖檔生成功能的GPT-4o，目前也存在部分問題。

如當我們要求GPT-4o輸出一張同時包含中國傳統神話故事中四大神獸的照片時，圖檔内容雖出現四大神獸，但除青龍稍微符合神話故事原型外，其他三大神獸均和神話故事中的原型相差極大，這可能也和OpenAI團隊對中國傳統神話故事學習能力欠佳的有關。

圖源：GPT-4o官網

但在圖檔的識别能力上，Gemini正以圖檔識别為基礎場景，衍生出更多場景服務。我們選取網絡平台常見的面條圖檔，Gemini在識别出這張圖檔為雞蛋面後，又給到我們雞蛋面、中國面條等關鍵詞友善我們二次檢索。更重要的是，Gemini還直接推薦各種雞蛋面的做法。

圖源：Gemini官網

對比之下，GPT-4o在識别出圖檔内容為拌面下，僅是簡單地對拌面進行介紹，并未展開過多叙述。

圖源：GPT-4o官網

當我們将識圖能力難度更新後，在網絡平台上選取常見的竹林照片，并詢問Gemini圖檔的拍攝地點時，Gemini給出包括日本京都岚山竹林、日本京都嵯峨野竹林、日本沖繩八重山竹林、中國四川毛竹林、中國安吉竹林、南美或東南亞等地點，并指出竹林的重要性。

圖源：Gemini官網

GPT-4o僅指出，這樣的景色在中國、日本等東亞國家極其常見。如日本的京都岚山竹林和中國的安吉竹海都是著名的竹林景區。不僅地點相對Gemini較少，還反問到你知道具體的拍攝地點嗎？

圖源：GPT-4o官網

在測試邏輯推理上，我們選取2023年全國卷數學聯考真題中難度較大的壓軸題時，GPT-4o給出的答案可以用失望來形容。

圖源：2023年全國卷數學真題

如在全國聯考卷第20題的兩問中，GPT-4o僅是簡單地給出不完整的解題步驟，沒有輸出任何一個準确答案。

圖源：GPT-4o官網

第21題的三問中，GPT-4o不僅将三小問變成兩小問，且前兩問求機率的問題上，本應為具體數字的答案，在GPT-4o這裡卻是帶有變量N的不确定答案。

但Gemini的表現同樣欠佳，如在第20題首問的求通項公式中，Gemini雖給出兩種解法，但兩種解法給出的答案完全不同。換言之，Gemini有可能僅是簡單地抓取國内網站的相關連結，并未對資訊内容和準确度進行二次稽核。

圖源：Gemini官網

整體來看，目前Gemini在很多方面的綜合能力，以及産品上線速度方面比GPT-4o更加能打。且在價格方面，谷歌的Gemini 1.5 Flash 的價格定為每100萬個token 35 美分，比GPT-4o的每100萬個token 5 美元的價格低很多。産品組合性能表現不輸GPT-4o疊加低價，谷歌或許正在放出王炸。

但按照OpenAl在大模型上積累的強大技術能力來看，谷歌在某些方面稍微領先的優勢能保持多久，仍有待商榷。谷歌和OpenAI在AI大模型技術上的持續博弈下，可能會将美國AI大模型的技術能力推向新高度。

三、國内卷價格，或将推動行業加速洗牌

對于位元組率先發起行業價格戰也不能了解，目前國内大模型在TOC端的商業化落地，正朝着當年的移動網際網路方向發展。

依靠價格戰，移動網際網路廠商（大模型廠商）不斷提高新增使用者和日活使用者的同時，後續逐漸衍生出如廣告、電商、與核心業務場景高度契合的其他場景收入。這在保證平台實作單個使用者價值最大化的同時，也能幫助移動網際網路廠商（大模型廠商）提高現金流，持續減少企業虧損。

後續移動網際網路廠商（大模型廠商）繼續發動行業價格戰，資金能力不足的中小廠商被洗牌出清，行業份額繼續朝着頭部廠商集中。頭部廠商獲得高話語下，對供需兩側衍生更多商業化，最終讓行業形成強者愈強的馬太效應。

不僅僅是TOC端，大模型價格戰未來也将同樣出現在TOB端。對标SaaS産業來看，價格仍是國内SaaS企業的核心優勢之一，尤其在SaaS産業産品和場景同質化嚴重、國内企業主付費意識不強、中小客群存在流失率高、合規性差、決策集中一人等現狀下，頭部SaaS廠商想要從價格戰的泥潭中走出，面臨着不小的阻力。

但需指出的是，網際網路時代面向TOC端的價格戰，更多是建立在細分場景下的服務上。這種服務下，消費者真正關注的也就是服務好壞。剛需場景下，這種服務好壞更是被淡化。

但AI大模型時代，類似于美圖這種圖檔場景類的服務，消費者的要求可能不高。但其他場景下，本質是使用者願意為大模型的高品質内容進行付費。

換言之，消費者真正看重的仍是大模型的處理能力以及能否高效完成任務，而非價格。若在完成任務能力上表現欠佳，價格再低實則也是無用。

尤其是對于金融類、研投類對大模型輸出的内容品質要求高、資料品質生成快且專業的行業來說，更是如此。更别提企業端定制大模型，更不允許大模型的生産内容和資料存在絲毫偏差了。

或許國内大模型廠商是想借助價格戰，盡快讓大模型幫助企業帶動營收增長，進而對沖大模型前期高昂的研發成本投入，以及相關硬體方面的投入。

但随着國内大模型廠商在價格上持續内卷，或将影響到不少技術能力優越但資金實力不足的初創企業，這又是否會讓中美在大模型方面的技術能力差距被拉開得更高呢？

大模型“聚會”：國内卷價格，國外卷能力

繼續閱讀

斯坦福團隊被曝抄襲清華系大模型後删庫，被抄襲公司CEO：也算國際認可

1928年，徐志摩母親推門而入，見到不堪入目的畫面：徐志摩、陸小曼、翁瑞午3人同睡一張床。陸和翁睡得七仰八叉，徐志摩則擠

Mistral 的首個“開放”程式設計模型

斯坦福AI團隊抄襲國産大模型？連識别“清華簡”都抄了！清華系團隊回應

LLM 快速發展時代下圖基礎模型初探

Chaos Cosmos新增了 650 多種高品質 3D 模型和材質

看來AI是未來手機發展的趨勢無疑了，近日有爆料稱将用AI徹底改造Siri，讓其控制所有功能，該功能允許使用者通過語音控制單

斯坦福AI團隊被質疑抄襲國産大模型

同學聚會的會是純友誼聚會嗎？不算。。。同學聚會好多年沒有參加了，每年都會有很多熱心快腸的同學總是鬧着在組織，中學的、高中

蘭德：確定AI模型權重

斯坦福AI團隊承認抄襲清華模型，公開道歉并撤下争議項目

今日法律問答·著作權：斯坦福AI團隊抄襲面壁開源模型是否侵權

清華與面壁聯合開發模型被套殼，兩位斯坦福學生作者道歉删除引用

斯坦福團隊抄襲清華系大模型實錘，作者深夜道歉，中國大模型已經無法被忽視

微軟潘海峰華盛頓大學王晟團隊釋出首個全切片數字病理學模型

阿裡雲首個聯合DNA、RNA、蛋白質的生物大模型，涵蓋16.9W物種