大模型多燒錢？明星獨角獸揭秘訓練成本：明年或達100億美元

AI訓練成本暴漲，小語言模型展現成本效益優勢。

編譯 |Alyssa

編輯 |Panken

智東西5月8日消息，據美國知名科技媒體VentureBeat報道，在近期測試中，一款新釋出的大語言模型（LLM）似乎能“辨認”出自己正處于被評估狀态，并對其處理資訊的相關性作出評論。這引發了人們的猜想，這個反應可能是“元認知”的一個執行個體，即對自身思維過程的了解。這一大語言模型激發了關于AI自我意識潛力的讨論，但更值得關注的是，這說明随着規模變大，大模型可能會産生新的功能。

伴随而來的還有新興能力和成本的急劇上升，目前這些成本已達到“天文數字”。正如半導體行業隻有少數幾家有能力負擔最新數十億美元晶片制造廠的公司，AI領域也可能很快被僅有的幾家大型科技巨頭及其合作夥伴所主導，隻有它們能夠承擔開發類似GPT-4和Claude 3等最新大語言模型的巨額費用。

01.AI模型訓練成本指數級增長：下一個頂尖模型或需百億美金！

随着最新模型訓練成本的極速飙升，部分模型的能力已經達到甚至在某些情況下超過人類的水準。據斯坦福大學報告估計，最新的模型訓練成本已逼近2億美元。

▲AI系統在與人類表現相關的各種能力上的測試分數。（圖源：Our World in Data）

若這種指數級性能增長持續，AI能力不僅會快速進化，其成本也将呈指數級膨脹。知名美國大模型獨角獸企業Anthropic擁有目前性能領先的旗艦級大模型Claude 3。與GPT-4一樣，Claude 3是一款基礎模型，通過在多元且豐富的資料集上進行預訓練，形成了對語言、概念和模式的廣泛了解。

▲LLM基準性能。（圖源：Anthropic）

近日，Anthropic公司聯合創始人兼首席執行官Dario Amodei在一場公開讨論中透露，目前AI模型的訓練成本正急劇攀升，以Claude 3模型為例，其訓練費用已高達約1億美元；正處于研發階段并預計于2024年底或2025年初面世的新一代模型，其訓練成本更是逼近10億美元。

▲LLM訓練成本随着模型的複雜程度而上升。（圖源：Stanford 2024 AI Index Report）

面對這一成本飙升的現象，探究其背後的原因顯得尤為重要。Amodei解釋說，随着每一代模型複雜度的不斷更新，它們所擁有的參數量級持續增加，這不僅使得模型能夠處理更複雜的了解和查詢任務，同時也對訓練資料量和計算資源的需求提出了更高要求。

據Amodei預測，到2025年或2026年，訓練最新大語言模型的成本将達到50億至100億美元。僅極少數财力雄厚的大公司及其合作夥伴有能力建構這些基礎模型。

02.AI行業步半導體行業後塵高昂成本推動制造業務外包

随着技術的飛速發展，AI行業正沿着一條與半導體行業頗為相似的道路前行。回溯20世紀末，多數半導體企業均采取自設計、自建晶片的模式。彼時的半導體行業遵循着摩爾定律——即晶片性能呈指數級提升的概念，每一代新裝置和晶圓廠的建造成本也随之水漲船高。

面對高昂的成本壓力，衆多企業最終選擇将産品制造外包。以AMD公司為例，該公司曾自主生産尖端半導體，但在2008年決定将其晶圓廠（簡稱fabs）剝離出去，以此來降低開支。

由于巨額的資金成本，目前隻有三家半導體公司正在使用最新的工藝節點技術建造先進的晶圓廠：台積電（TSMC）、英特爾（Intel）和三星（Samsung）。台積電最近透露，建立一座生産尖端半導體的晶圓廠成本高達200億美元。包括蘋果、英偉達、高通及AMD在内的多家公司，均選擇将産品制造業務外包給這些頂尖晶圓廠。

03.定制化AI入場：小語言模型，成本效益下的新選擇

在AI領域，這些成本增長帶來的影響各不相同，因為并非所有應用場景都需要最新、最強大的大語言模型。半導體行業的情況亦是如此。例如，在計算機中，中央處理器（CPU）通常采用最新的高端半導體技術制造，而圍繞其周圍的記憶體或網絡晶片則運作在較低速度下，這意味着它們無需采用最快或最強的技術來建構。

若類比到AI領域，随着衆多小型大語言模型替代品的湧現，如Mistral和Llama 3，它們有數十億個參數，不像GPT-4被傳有超萬億個參數。微軟最近也釋出了自己的小語言模型（SLM）Phi-3。據The Verge報道，Phi-3擁有38億個參數，并且基于相對GPT-4等大語言模型更小的資料集進行訓練。

盡管可能無法完全媲美大型模型的效能，但小語言模型憑借其精簡的體型和訓練資料集，在成本控制方面展現出獨特優勢。這些小語言模型恰如計算機中的輔助晶片，為CPU提供高效支援，成為經濟實惠的選擇。

對于無需跨多個資料域的完整知識應用場景，小語言模型可謂量身定制的理想工具。例如，企業可利用小語言模型針對特定内部資料和行業術語進行微調，以提供精準個性化的客戶服務回複；或是通過特定行業或細分市場的資料進行訓練，用于生成全面的和定制化的研究報告和答案。

正如Forrester Research的資深AI分析師Rowan Curran所比喻：“并非時刻都需要跑車，有時一輛小型貨車或皮卡車更為合适。未來的模型應用不會單一，而是根據不同需求選擇最适宜的工具。”

04.結語：少數玩家主導或加劇AI創新風險

過去越來越昂貴的成本導緻僅有幾家公司具備制造頂尖晶片的能力，類似的經濟壓力如今正塑造大語言模型研發的格局。這些不斷攀升的成本可能将AI創新局限在少數幾個主導企業手中，進而可能抑制創新與多樣性。高昂的入門門檻可能會阻止初創公司和較小企業對AI發展的貢獻。

為了平衡這一趨勢，業界需要探索小型、專業化的語言模型。它們如同龐雜系統中的重要元件，為各類細分應用提供關鍵高效的功能。推動開源及共同協作對于普及AI開發至關重要，這使得更廣泛的參與者能夠影響這一技術。通過營造包容開放的環境，未來AI技術有望為全球各個社群帶來廣泛的收益，并提供平等的創新機會。

來源：VentureBeat

大模型多燒錢？明星獨角獸揭秘訓練成本：明年或達100億美元

繼續閱讀

當開源遇到大模型，将産生怎樣的變革？

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代

喬欣助理離職大爆料！涉及明星超10位，包括楊洋戀情和賈乃亮婚姻

真當網絡沒有記憶，兩明星公然出席辱華品牌活動，網友：直接封殺

休賽期交易市場的10條大魚：維金斯第十，米切爾第二，9個全明星！

大模型價格普降，網際網路式“地盤争奪戰”再現大廠真的會虧錢嗎？

借拍戲之名，襲胸、摸腿、扯内衣，這些“鹹豬腳”明星沒救了

明星基金經理調倉路徑曝光：葛蘭、張坤、謝治宇有哪些新布局？

這才是品質最好的一屆NBA選秀！9位全明星+前10順位僅1人拉垮

中國大模型資本往事：20位大模型局中人走上“生死牌桌”

自19年之後最瘋狂的休賽期？3位頂級球星領銜，18位全明星或易主

《狐妖小紅娘月紅篇》37歲楊幂和小6歲郭曉婷、小14歲胡連馨同框對比太慘烈！才知女明星的長相和年齡有多重要

前助理曝喬欣“N角戀”：明星被從業人員倒油，猛料一個接一個

28名台灣明星支援祖國統一！未表态名單曝光，周傑倫大小S上榜