天天看點

質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI

質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI

钛媒體APP

2024-05-26 10:07釋出于江蘇钛媒體APP官方賬号

質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI

(圖檔來源:钛媒體App編輯拍攝)

近期,關于生成式 AI 産品和産業的諸多質疑聲不斷發酵。

中原標準時間5月25日,美國普渡大學發表的一項研究顯示,ChatGPT對Stack Overflow上517個關于代碼開發問題進行分析,最終顯示,AI 輸出的答案中,有52%包含錯誤資訊,77%的答案比人類答案要更冗長,而78%的答案與人類存在不一緻狀況。

研究人員稱,ChatGPT仍然存在重大的缺陷,經常會憑空産生完全錯誤的答案,并且這個錯誤比例高得驚人。

與此同時,谷歌日前釋出的全新 AI 搜尋産品“AI Overview”被網友曝光 AI 回答頻頻出錯,包括建議“往披薩上抹膠水”、“吃石頭對身體好”等回答,它甚至還會告訴你,網際網路上的一切是100%真實的,是以這遭到網友廣泛批評;另外,估值超10億美元的Adept、估值7.5億美元的Humane、AI獨角獸Stability AI等多家 AI 公司被曝光并購或“賣身”。

質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI

5月國内大模型“價格戰”降價後資訊彙總(來源:钛媒體App編輯整理)

如果再加上過去一個月内國内集體進入的大模型API“價格戰”。很顯然,随着新一輪 AI 熱潮進入“深水區”,當 AI 還沒改變世界之前,如今卻已經遭到人類的“圍剿”。

AI産品受質疑:ChatGPT出現52%的錯誤率,谷歌AI“大翻車”

首先,從ChatGPT程式設計問題遭遇52%的回答錯誤率開始說起。

據futurism報道,美國普渡大學研究人員本月在計算機會議ACM上展示的一項研究成果表明,ChatGPT AI生成的程式設計答案中,有52%的回答包含錯誤資訊,77%的回答過于冗長。

這篇共計17頁的論文當中,研究人員深入分析ChatGPT對Stack Overflow上517個程式設計問題的回答,考察了這些回答的正确性、一緻性、全面性和簡潔性。盡管研究發現ChatGPT回答存在錯誤資訊,但研究參與者當中,仍有35%的時間傾向于選擇ChatGPT的回答,因為它們全面且語言表達清晰。

研究方法上,論文作者以手動分析、語言學分析、使用者研究三個部分展開。

手動分析:對ChatGPT的回答進行手動分析,與Stack Overflow上人類程式員提供的接受答案進行比較。

語言學分析:對2000個随機抽取的Stack Overflow問題進行語言學分析,使用LIWC工具和情感分析。

使用者研究:與12名程式員進行使用者研究,了解他們對ChatGPT和Stack Overflow答案的偏好。

最後發現,ChatGPT的回答在很多情況下表現得非常好,但也頻繁出錯,并且不必要地延長了回答。

同時,ChatGPT回答具有更豐富的語言學特征,導緻一些使用者更傾向于選擇ChatGPT而非人類回答,并有時忽視ChatGPT回答中的基本錯誤和不一緻性。資料顯示,有39%的參與者忽視了ChatGPT回答中的誤導資訊。這表明需要對抗ChatGPT回答中的誤導資訊,并提高人們對看似正确答案的風險意識。

另外,使用者通常能夠正确區分ChatGPT回答和人類回答,他們尋找諸如正式語言、結構化寫作、回答長度或不尋常的錯誤等因素來決定答案的來源。而且,論文還讨論了ChatGPT在程式設計中的挑戰和風險,并提出了設計新的互動和計算方法來對抗ChatGPT生成的誤導資訊的機會。

有分析認為,這篇論文的研究成果對于了解ChatGPT在程式設計領域的應用及其潛在問題具有重要意義,并為未來的研究和實踐提供了指導。

其次,谷歌AI“大翻車”事件引發關注。

最近,谷歌在I/O開發者大會上宣布,其搜尋産品新增名為“AI Overview”的功能,它可以在搜尋結果的最頂部直接展示一個簡短的答案。例如,如果你搜尋“如何清潔皮靴”,系統就會立即顯示一個綜合了網絡資訊的多步驟清潔指南。這個功能讓你能迅速獲得資訊,無需逐一檢視各個網頁。

然而,使用不到兩周,由于AI Overview頻頻提供“離譜”的錯誤答案,遭到了網友的大量批評,而且使用者還不能選擇關閉這個功能。

比如,當一位使用者搜尋“芝士不粘披薩”時,AI Overview建議使用者在醬汁中添加“大約1/8杯無毒膠水”。有網友發現,這個建議似乎源自11年前的一條無人問津的Reddit評論。

質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI

再比如,使用者提問:“在網上看到的資訊都是真的嗎?”。AI Overview回答:“是的。網際網路上的一切都是100%真實的。”。

有時候AI Overview功能呈現的錯誤資訊,會誤導使用者以為是權威醫療專家或科學家的觀點。

例如,當使用者詢問“我每天應該吃多少石頭”時,該工具錯誤地引用加州大學伯克利分校地質學家的話稱:“人們每天至少應該吃一塊小石頭”,并繼續列出吃石頭的好處,比如岩石是人體維生素和礦物質的重要來源,吃石頭對消化健康有好處.

當被問及谷歌搜尋是否違反反壟斷法時,AI Overview回答說:“是的,美國司法部和11個州正在起訴谷歌涉嫌違反反壟斷法。”

對此,谷歌發言人表示,“絕大多數AI Overview提供的資訊品質都很高,并且會提供更多網頁連結供使用者深入了解。我們注意到很多示例都是不常見的查詢,也有一些是被篡改的或者他們無法複現的例子。這個功能在推出前已經進行了大量測試,并且公司會在必要時快速采取行動來確定内容的準确性。”

不僅僅是AI Overview工具,谷歌在今年2月推出的另一個名為Gemini的圖像生成工具也頻頻出錯,導緻該工具被暫停使用。例如,有使用者在社交媒體上分享,他在查詢谷歌創始人時,該工具展示了一幅亞洲男性的圖像。

谷歌當時在一份聲明中表示,它正在努力修複Gemini的圖像生成問題,承認該工具“未達到标準”。不久之後,公司宣布将立即“暫停生成人物圖像”,并“很快重新釋出改進版本”,但至今尚未再次推出。

最後,是近兩天美國 AI 市場進入新一輪洗牌,獨角獸們集體遭遇“賣身”。

據報道,Transformer作者Ashish Vaswani、Niki Palmer和David Luan成立的大模型公司Adept傳出被賣消息。公司估值10億美元,此前已獲得4億美元的融資,參投機構包括Frontiers Capital、微軟、英偉達等。據悉,Adept已經和Meta進行過溝通。

目前,公司兩位聯合創始人Ashish Vaswani、Niki Palmer已經成立了另一家AI辦公自動化公司Essential AI。

同時,有消息稱,紅極一時的可穿戴AI裝置公司Humane AI Pin,也在與一名财務顧問接觸,尋找意向買家,目标價格是7.5-10億美元。此前,該公司獲得微軟、高通,以及OpenAI CEO奧爾特曼等人數億元的融資支援。

另外,AI 圖檔生成領域開拓者、Stable Diffusion打造者Stability AI被曝光公司團隊考慮求合并,但具體進度不得而知。而 AI 搜尋龍頭Perplexity曾在1月傳出相關消息。不過随着後面馬上官宣了B輪7360萬美元融資,求收購計劃疑似中止,最近還被曝正尋求更新一輪融資,金額可能達到2.5億美元。

很顯然,不管出于何種原因,大模型領域進入了新一輪洗牌期。據PitchBook統計,過去3年中,全球大約2.6萬家創企共計融資了3300億美元。

有市場分析稱,生成式 AI 産業投資正在呈現方向性轉移,模型層投融資“雪球效應”明顯,資源向頭部聚集,潛在資本重點看向應用層。

紅杉資本在近期舉行的AI Ascent 2024上表示,2023年,各家AI公司在英偉達GPU上大手一揮,已經花去500億美元,但由此産生的收入才有30億美元。

谷歌DeepMind首席執行官德米斯·哈薩比斯(Demis Hassabis)直言,AI 遭遇過度炒作,估值過于高昂,“泡沫”需要軟着陸。

金沙江創投主管合夥人朱嘯虎曾指出,大模型商業模式太差,技術沒有差太多的情況下,每一代技術都要投,現在可能3.5版本要投入幾千萬美元,疊代到4版本要幾億美元,到5版本可能要幾十億美元,每一代模型都要重新去投入,而變現周期可能就兩三年,“這比發電廠還要差”。

美國經濟學家泰勒·考恩(Tyler Cowen)認為,AI 炒作已經消退,但革命仍在繼續。

國内大模型價格戰加劇,市場将迎來新一輪洗牌

相對于國外的 AI 質疑和企業被迫出售環境,國内 AI 領域競争加劇,阿裡、騰訊、位元組、百度、訊飛、智譜、DeepSeek集體加入價格戰。

5月6日:私募基金幻方量化孵化的DeepSeek(深度求索)初創大模型公司發起降價,對标GPT-4的模型DeepSeek-V2的輸入價格定為1元/百萬tokens。

5月12日、13日:智譜AI的GLM-3-Turbo模型和面壁智能模型展開價格攻防,後者宣布0元購。

5月15日:位元組跳動旗下火山引擎 AI 大模型豆包(原名:雲雀)宣布,主力模型定價比行業價格水準要便宜 99.3%,豆包大模型的 API 輸入價格是 0.0008元/千 tokens,即1元在豆包能買到125萬 tokens。

5月21日上午,阿裡雲宣布,9款通義大模型降價,其中,性能對标GPT-4的主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%,也就是1塊錢能買200萬tokens,相當于5本《新華字典》的文字量。而剛釋出不久的通義千問超大杯Qwen-max,API輸入價格也直降67%,低至0.02元/千tokens。開源方面,Qwen1.5-72B、Qwen1.5-110B等5款開源模型的輸入價格也分别直降75%以上。

5月21日下午,百度發文宣布,旗下兩款大模型ERNIE Speed、ERNIE Lite免費。

5月22日,騰訊公布全新大模型更新方案,主力模型之一的混元-lite 模型不僅從 4k 更新到 256k ,而且全面免費;其他模型除了長度更新外,價格也都大幅下降。

5月22日中午:科大訊飛宣布,訊飛星火 API 能力正式免費開放。其中,訊飛星火 Lite API 永久免費開放,訊飛星火 Pro/Max API 低至 0.21 元/萬 tokens。

對此次價格戰,大家褒貶不一,一方面是認為利好大模型市場發展,另一方面則認為AI“泡沫”即将破滅、新一輪洗牌到來,觀點并不一緻。

其中,阿裡雲智能集團資深副總裁、公共雲事業部總裁劉偉光表示,“(降價)它的目的一定是普惠于市場”,“要真正加速市場的提前爆發”。

火山引擎總裁譚待表示,降價的主要原因在于,今年行業大模型能力大幅提升,做應用這件事變得很重要,也就是一定要将生态做繁榮。譚待稱目前接觸的很多客戶都在做大模型方面的嘗試,但創新這件事的風險度很高,尤其在AI領域,是以需要将成本降低,拉動大家更廣泛地使用起來。從這個角度來講,不論是大企業還是個人,都需要更低成本、更高品質的大模型。

但彭博分析師 Robert Lea 和Jasmine Lyu在最新報告中認為,“中國在 AI 盈利方面将面臨着漫長的道路,行業洗牌可能會推動該行業盈利,盡管在一個資本過剩的行業中,但這種(行業盈利)情況似乎不太可能很快發生。”

零一萬物CEO李開複對钛媒體App表示,推理成本将每年降10倍,但瘋狂降價是雙輸。

“因為今天API跟模型調用還是一個非常低的比例,如果一年推理降低10倍,衆多的人可以用上,這是一個非常利好消息。”但另一方面,李開複卻認為,按照現在國内市場‘卷’的情況,幾十萬做個POC(概念驗證),幾百萬做一單,做一單、賠一單的生意,“我們早期在AI 1.0時代看多了、投多了,(如今)我們堅決不做(賠錢生意)。”

百川智能創始人、CEO王小川則向钛媒體App指出,價格免費是優勢,但不一定是競争力。大模型價格戰會加速泡沫周期,直接導緻尾部部分企業會退出賽道。

“我們做C端的就别摻合了,”王小川直言,這種價格戰與C端無關。同時,免費之後,整個To B市場會繁榮的更快,因為大家更願意嘗試使用這個模型,價值空間是有的,但尾部公司會退出這個賽道。

王小川強調,“漲潮退潮最後才會有珍珠,但一定有它的一種泡沫在這裡,會加速泡沫周期,也讓它變得更加繁榮,這是商業裡面必然出現的一個事情。”

整體來看,無論是産品質疑、企業賣身,還是國内這輪 AI 大模型價格戰,都在說明行業面臨新一輪洗牌和熱潮降溫。但是,不斷變革的 AI 技術對于各行各業發展仍然非常重要。

市場調研機構IDC最新資料顯示,2024年,全球生成式AI支出為403億美元,其中生成式AI基礎設施、模型和平台、應用、服務支出分别占比為45.41%、11.66%、15.63%、27.30%,到2027年,全球生成式AI年支出将達到1510億美元,占全球AI支出的比例為29%。

IDC分析認為,2024年,中國基礎大模型數量将減少,逐漸轉變為針對産業落地的行業大模型比拼,在模型架構、開發者工具、基礎大模型、部署和推理工具等次元上會呈現開源和閉源共存。同時,随着蘋果、小米、榮耀等廠商陸續釋出支援端側AI推理的晶片或模型,AI落地端側成為終端廠商趨勢,端側AI推理可以實作更高的處理效率、更好的隐私保護和全新的使用者體驗方式。預計2025年前,生成式AI的機會還停留在基礎設施,2025-2026年向生成式AI平台和方案過度,2026年之後生成式AI服務的機會将全面爆發。

中國科學院科技戰略咨詢研究院研究員肖尤丹表示,經曆了大浪淘沙、生存下來的 AI 大模型企業,将迎來新一輪的快速發展機遇。

谷歌DeepMind聯合創始人Demis Hassabis預測,通用人工智能(AGI)有望在2030年實作。

(本文首發于钛媒體App,作者|林志佳,編輯|胡潤峰)

檢視原圖 3.6M

  • 質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI
  • 質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI
  • 質疑、賣身、價格戰,AI 竟遭遇人類“圍剿”?|钛媒體AGI