質疑、賣身、價格戰，AI 竟遭遇人類“圍剿”？｜钛媒體AGI

钛媒體APP

2024-05-26 10:07釋出于江蘇钛媒體APP官方賬号

（圖檔來源：钛媒體App編輯拍攝）

近期，關于生成式 AI 産品和産業的諸多質疑聲不斷發酵。

中原標準時間5月25日，美國普渡大學發表的一項研究顯示，ChatGPT對Stack Overflow上517個關于代碼開發問題進行分析，最終顯示，AI 輸出的答案中，有52%包含錯誤資訊，77%的答案比人類答案要更冗長，而78%的答案與人類存在不一緻狀況。

研究人員稱，ChatGPT仍然存在重大的缺陷，經常會憑空産生完全錯誤的答案，并且這個錯誤比例高得驚人。

與此同時，谷歌日前釋出的全新 AI 搜尋産品“AI Overview”被網友曝光 AI 回答頻頻出錯，包括建議“往披薩上抹膠水”、“吃石頭對身體好”等回答，它甚至還會告訴你，網際網路上的一切是100%真實的，是以這遭到網友廣泛批評；另外，估值超10億美元的Adept、估值7.5億美元的Humane、AI獨角獸Stability AI等多家 AI 公司被曝光并購或“賣身”。

5月國内大模型“價格戰”降價後資訊彙總（來源：钛媒體App編輯整理）

如果再加上過去一個月内國内集體進入的大模型API“價格戰”。很顯然，随着新一輪 AI 熱潮進入“深水區”，當 AI 還沒改變世界之前，如今卻已經遭到人類的“圍剿”。

AI産品受質疑：ChatGPT出現52%的錯誤率，谷歌AI“大翻車”

首先，從ChatGPT程式設計問題遭遇52%的回答錯誤率開始說起。

據futurism報道，美國普渡大學研究人員本月在計算機會議ACM上展示的一項研究成果表明，ChatGPT AI生成的程式設計答案中，有52%的回答包含錯誤資訊，77%的回答過于冗長。

這篇共計17頁的論文當中，研究人員深入分析ChatGPT對Stack Overflow上517個程式設計問題的回答，考察了這些回答的正确性、一緻性、全面性和簡潔性。盡管研究發現ChatGPT回答存在錯誤資訊，但研究參與者當中，仍有35%的時間傾向于選擇ChatGPT的回答，因為它們全面且語言表達清晰。

研究方法上，論文作者以手動分析、語言學分析、使用者研究三個部分展開。

手動分析：對ChatGPT的回答進行手動分析，與Stack Overflow上人類程式員提供的接受答案進行比較。

語言學分析：對2000個随機抽取的Stack Overflow問題進行語言學分析，使用LIWC工具和情感分析。

使用者研究：與12名程式員進行使用者研究，了解他們對ChatGPT和Stack Overflow答案的偏好。

最後發現，ChatGPT的回答在很多情況下表現得非常好，但也頻繁出錯，并且不必要地延長了回答。

同時，ChatGPT回答具有更豐富的語言學特征，導緻一些使用者更傾向于選擇ChatGPT而非人類回答，并有時忽視ChatGPT回答中的基本錯誤和不一緻性。資料顯示，有39%的參與者忽視了ChatGPT回答中的誤導資訊。這表明需要對抗ChatGPT回答中的誤導資訊，并提高人們對看似正确答案的風險意識。

另外，使用者通常能夠正确區分ChatGPT回答和人類回答，他們尋找諸如正式語言、結構化寫作、回答長度或不尋常的錯誤等因素來決定答案的來源。而且，論文還讨論了ChatGPT在程式設計中的挑戰和風險，并提出了設計新的互動和計算方法來對抗ChatGPT生成的誤導資訊的機會。

有分析認為，這篇論文的研究成果對于了解ChatGPT在程式設計領域的應用及其潛在問題具有重要意義，并為未來的研究和實踐提供了指導。

其次，谷歌AI“大翻車”事件引發關注。

最近，谷歌在I/O開發者大會上宣布，其搜尋産品新增名為“AI Overview”的功能，它可以在搜尋結果的最頂部直接展示一個簡短的答案。例如，如果你搜尋“如何清潔皮靴”，系統就會立即顯示一個綜合了網絡資訊的多步驟清潔指南。這個功能讓你能迅速獲得資訊，無需逐一檢視各個網頁。

然而，使用不到兩周，由于AI Overview頻頻提供“離譜”的錯誤答案，遭到了網友的大量批評，而且使用者還不能選擇關閉這個功能。

比如，當一位使用者搜尋“芝士不粘披薩”時，AI Overview建議使用者在醬汁中添加“大約1/8杯無毒膠水”。有網友發現，這個建議似乎源自11年前的一條無人問津的Reddit評論。

再比如，使用者提問：“在網上看到的資訊都是真的嗎？”。AI Overview回答：“是的。網際網路上的一切都是100%真實的。”。

有時候AI Overview功能呈現的錯誤資訊，會誤導使用者以為是權威醫療專家或科學家的觀點。

例如，當使用者詢問“我每天應該吃多少石頭”時，該工具錯誤地引用加州大學伯克利分校地質學家的話稱：“人們每天至少應該吃一塊小石頭”，并繼續列出吃石頭的好處，比如岩石是人體維生素和礦物質的重要來源，吃石頭對消化健康有好處.

當被問及谷歌搜尋是否違反反壟斷法時，AI Overview回答說：“是的，美國司法部和11個州正在起訴谷歌涉嫌違反反壟斷法。”

對此，谷歌發言人表示，“絕大多數AI Overview提供的資訊品質都很高，并且會提供更多網頁連結供使用者深入了解。我們注意到很多示例都是不常見的查詢，也有一些是被篡改的或者他們無法複現的例子。這個功能在推出前已經進行了大量測試，并且公司會在必要時快速采取行動來確定内容的準确性。”

不僅僅是AI Overview工具，谷歌在今年2月推出的另一個名為Gemini的圖像生成工具也頻頻出錯，導緻該工具被暫停使用。例如，有使用者在社交媒體上分享，他在查詢谷歌創始人時，該工具展示了一幅亞洲男性的圖像。

谷歌當時在一份聲明中表示，它正在努力修複Gemini的圖像生成問題，承認該工具“未達到标準”。不久之後，公司宣布将立即“暫停生成人物圖像”，并“很快重新釋出改進版本”，但至今尚未再次推出。

最後，是近兩天美國 AI 市場進入新一輪洗牌，獨角獸們集體遭遇“賣身”。

據報道，Transformer作者Ashish Vaswani、Niki Palmer和David Luan成立的大模型公司Adept傳出被賣消息。公司估值10億美元，此前已獲得4億美元的融資，參投機構包括Frontiers Capital、微軟、英偉達等。據悉，Adept已經和Meta進行過溝通。

目前，公司兩位聯合創始人Ashish Vaswani、Niki Palmer已經成立了另一家AI辦公自動化公司Essential AI。

同時，有消息稱，紅極一時的可穿戴AI裝置公司Humane AI Pin，也在與一名财務顧問接觸，尋找意向買家，目标價格是7.5-10億美元。此前，該公司獲得微軟、高通，以及OpenAI CEO奧爾特曼等人數億元的融資支援。

另外，AI 圖檔生成領域開拓者、Stable Diffusion打造者Stability AI被曝光公司團隊考慮求合并，但具體進度不得而知。而 AI 搜尋龍頭Perplexity曾在1月傳出相關消息。不過随着後面馬上官宣了B輪7360萬美元融資，求收購計劃疑似中止，最近還被曝正尋求更新一輪融資，金額可能達到2.5億美元。

很顯然，不管出于何種原因，大模型領域進入了新一輪洗牌期。據PitchBook統計，過去3年中，全球大約2.6萬家創企共計融資了3300億美元。

有市場分析稱，生成式 AI 産業投資正在呈現方向性轉移，模型層投融資“雪球效應”明顯，資源向頭部聚集，潛在資本重點看向應用層。

紅杉資本在近期舉行的AI Ascent 2024上表示，2023年，各家AI公司在英偉達GPU上大手一揮，已經花去500億美元，但由此産生的收入才有30億美元。

谷歌DeepMind首席執行官德米斯·哈薩比斯（Demis Hassabis）直言，AI 遭遇過度炒作，估值過于高昂，“泡沫”需要軟着陸。

金沙江創投主管合夥人朱嘯虎曾指出，大模型商業模式太差，技術沒有差太多的情況下，每一代技術都要投，現在可能3.5版本要投入幾千萬美元，疊代到4版本要幾億美元，到5版本可能要幾十億美元，每一代模型都要重新去投入，而變現周期可能就兩三年，“這比發電廠還要差”。

美國經濟學家泰勒·考恩（Tyler Cowen）認為，AI 炒作已經消退，但革命仍在繼續。

國内大模型價格戰加劇，市場将迎來新一輪洗牌

相對于國外的 AI 質疑和企業被迫出售環境，國内 AI 領域競争加劇，阿裡、騰訊、位元組、百度、訊飛、智譜、DeepSeek集體加入價格戰。

5月6日：私募基金幻方量化孵化的DeepSeek（深度求索）初創大模型公司發起降價，對标GPT-4的模型DeepSeek-V2的輸入價格定為1元/百萬tokens。

5月12日、13日：智譜AI的GLM-3-Turbo模型和面壁智能模型展開價格攻防，後者宣布0元購。

5月15日：位元組跳動旗下火山引擎 AI 大模型豆包（原名：雲雀）宣布，主力模型定價比行業價格水準要便宜 99.3%，豆包大模型的 API 輸入價格是 0.0008元/千 tokens，即1元在豆包能買到125萬 tokens。

5月21日上午，阿裡雲宣布，9款通義大模型降價，其中，性能對标GPT-4的主力模型Qwen-Long，API輸入價格從0.02元/千tokens降至0.0005元/千tokens，直降97%，也就是1塊錢能買200萬tokens，相當于5本《新華字典》的文字量。而剛釋出不久的通義千問超大杯Qwen-max，API輸入價格也直降67%，低至0.02元/千tokens。開源方面，Qwen1.5-72B、Qwen1.5-110B等5款開源模型的輸入價格也分别直降75%以上。

5月21日下午，百度發文宣布，旗下兩款大模型ERNIE Speed、ERNIE Lite免費。

5月22日，騰訊公布全新大模型更新方案，主力模型之一的混元-lite 模型不僅從 4k 更新到 256k ，而且全面免費；其他模型除了長度更新外，價格也都大幅下降。

5月22日中午：科大訊飛宣布，訊飛星火 API 能力正式免費開放。其中，訊飛星火 Lite API 永久免費開放，訊飛星火 Pro/Max API 低至 0.21 元/萬 tokens。

對此次價格戰，大家褒貶不一，一方面是認為利好大模型市場發展，另一方面則認為AI“泡沫”即将破滅、新一輪洗牌到來，觀點并不一緻。

其中，阿裡雲智能集團資深副總裁、公共雲事業部總裁劉偉光表示，“（降價）它的目的一定是普惠于市場”，“要真正加速市場的提前爆發”。

火山引擎總裁譚待表示，降價的主要原因在于，今年行業大模型能力大幅提升，做應用這件事變得很重要，也就是一定要将生态做繁榮。譚待稱目前接觸的很多客戶都在做大模型方面的嘗試，但創新這件事的風險度很高，尤其在AI領域，是以需要将成本降低，拉動大家更廣泛地使用起來。從這個角度來講，不論是大企業還是個人，都需要更低成本、更高品質的大模型。

但彭博分析師 Robert Lea 和Jasmine Lyu在最新報告中認為，“中國在 AI 盈利方面将面臨着漫長的道路，行業洗牌可能會推動該行業盈利，盡管在一個資本過剩的行業中，但這種（行業盈利）情況似乎不太可能很快發生。”

零一萬物CEO李開複對钛媒體App表示，推理成本将每年降10倍，但瘋狂降價是雙輸。

“因為今天API跟模型調用還是一個非常低的比例，如果一年推理降低10倍，衆多的人可以用上，這是一個非常利好消息。”但另一方面，李開複卻認為，按照現在國内市場‘卷’的情況，幾十萬做個POC（概念驗證），幾百萬做一單，做一單、賠一單的生意，“我們早期在AI 1.0時代看多了、投多了，（如今）我們堅決不做（賠錢生意）。”

百川智能創始人、CEO王小川則向钛媒體App指出，價格免費是優勢，但不一定是競争力。大模型價格戰會加速泡沫周期，直接導緻尾部部分企業會退出賽道。

“我們做C端的就别摻合了，”王小川直言，這種價格戰與C端無關。同時，免費之後，整個To B市場會繁榮的更快，因為大家更願意嘗試使用這個模型，價值空間是有的，但尾部公司會退出這個賽道。

王小川強調，“漲潮退潮最後才會有珍珠，但一定有它的一種泡沫在這裡，會加速泡沫周期，也讓它變得更加繁榮，這是商業裡面必然出現的一個事情。”

整體來看，無論是産品質疑、企業賣身，還是國内這輪 AI 大模型價格戰，都在說明行業面臨新一輪洗牌和熱潮降溫。但是，不斷變革的 AI 技術對于各行各業發展仍然非常重要。

市場調研機構IDC最新資料顯示，2024年，全球生成式AI支出為403億美元，其中生成式AI基礎設施、模型和平台、應用、服務支出分别占比為45.41%、11.66%、15.63%、27.30%，到2027年，全球生成式AI年支出将達到1510億美元，占全球AI支出的比例為29%。

IDC分析認為，2024年，中國基礎大模型數量将減少，逐漸轉變為針對産業落地的行業大模型比拼，在模型架構、開發者工具、基礎大模型、部署和推理工具等次元上會呈現開源和閉源共存。同時，随着蘋果、小米、榮耀等廠商陸續釋出支援端側AI推理的晶片或模型，AI落地端側成為終端廠商趨勢，端側AI推理可以實作更高的處理效率、更好的隐私保護和全新的使用者體驗方式。預計2025年前，生成式AI的機會還停留在基礎設施，2025-2026年向生成式AI平台和方案過度，2026年之後生成式AI服務的機會将全面爆發。

中國科學院科技戰略咨詢研究院研究員肖尤丹表示，經曆了大浪淘沙、生存下來的 AI 大模型企業，将迎來新一輪的快速發展機遇。

谷歌DeepMind聯合創始人Demis Hassabis預測，通用人工智能（AGI）有望在2030年實作。

（本文首發于钛媒體App，作者｜林志佳，編輯｜胡潤峰）

檢視原圖 3.6M