天天看點

盤點2023,大模型産業狂奔的365天

作者:量子位

無尤 發自 2023

量子位 | 公衆号 QbitAI

4萬億攝氏度(345MeV),是美國紐約布魯克黑文國家實驗室在2010年利用相對論性重離子對撞機進行金離子對撞實驗時創造的,人類迄今為止所能制造的最高溫度,是太陽核心溫度的26萬倍。

如果說2023年有一項技術能夠達到如此空前的“熱度”,毫無疑問,那就是生成式大語言模型。

盤點2023,大模型産業狂奔的365天

但是不同于那不足十億分之一秒的、轉瞬即逝的4萬億度高溫,大模型對各行各業的深遠影響,在2023年既如“春雷萬鈞”,又似“潤物無聲”。是以,如果要用兩個關鍵詞形容2023年的大模型産業,除了“熱”,還有“卷”。

2022年11月,ChatGPT橫空出世,在僅僅兩個月過後,ChatGPT月活躍使用者就成功破億,并成為史上月活使用者最快破億的消費級應用。初出茅廬的ChatGPT像個全能戰士,能聊天、會寫代碼、寫論文…。在人們感慨這款對話應用功能強大的同時,其背後的大模型——GPT,第一次真正意義上被推進了所有公衆的視野。

現代AI技術主要是通過建構深度神經網絡來模拟人腦的學習過程,通過學習大量資料“沉澱”出AI模型,用來完成諸如圖像分類、目标檢測、機器翻譯、語言了解等特定任務。但這一次的大模型不一樣了,超大規模的資料量、算力和神經網絡規模使得模型産生了“智能湧現”。

目前,“智能湧現”最通俗的解釋,可能來自于百度創始人李彥宏,他認為,過去的人工智能是,想讓機器學會什麼技能,就教它什麼技能。教過的,有可能會;沒教過的,就不會。大模型出現“智能湧現”之後,以前沒教過的技能,它也有可能會了。

2023年,大模型領域的研究與創新在國内外“兩翼齊飛”。全球科技大廠與衆多創業公司、學術機構紛紛投身這場技術浪潮。粗略統計,目前全球已經釋出了數百個大模型,可謂是在一年時間裡,把一項通用技術“卷”上了天。

但是要在千行百業裡種下大模型的“花”,除了模型本身,還需要針對大模型更新雲計算基礎設施、配套相應的平台與工程化能力、配套面向上層應用的全新範式開發工具。

卷模型:全球已釋出幾百個基礎大模型,2024進入大規模淘汰賽

作為大模型技術研究的全球上司者,OpenAI背靠微軟這位“金主爸爸”,在2023年3月、9月和11月,相繼推出GPT-4、GPT-4V、GPT-4 Turbo,在基礎大模型表現方面被公認為遙遙領先,被全球同行玩家視作追趕對象和比較基準。

但是在11月,OpenAI上演了一出聯合創始人、CEO——Sam Altman,被董事會閃電解雇,到加入微軟、最終回歸的“宮鬥”鬧劇後,不少人也對OpenAI未來前景産生了一定擔憂。

作為OpenAI最強有力的競争對手,Anthropic由前OpenAI高管創立。

23年3月和7月,Anthropic陸續釋出了旗下大模型産品Claude和Claude 2,并且推出了直接與ChatGPT競争的對話機器人應用,強調打造“安全且負責任的AI”。值得一提的是,Claude 2剛推出時支援100k上下文視窗,11月更新2.1版本,支援200k“超大杯”上下文視窗,分别對GPT-4和GPT-4 Turbo實作了碾壓。Anthropic優異的表現也在23年下半年吸引了來自亞馬遜的40億美元、谷歌的20億美元新投資。

如果說OpenAI賦予了GPT靈魂,那麼這具“軀殼”在早年間可以說是Google給的。

作為Transformer架構的始作俑者,Google在2023年也不甘落後,推出了PaLM 2 、Gemini等現象級大模型;在大模型領域沉寂許久的雲計算巨頭AWS,在4月釋出Titian大模型後,直至年底才被爆料正在訓練一個新的、内部代号為「Olympus」的大模型,參數将高達2萬億;此外,阿聯酋的技術創新研究所(TII)與Meta則發力開源,TII最新釋出的Falcon 180B對Meta的Llama 2實作了超越,成為迄今為止最強的開源大模型。

回到國内市場,最先發力大模型的企業是百度。

2023年3月,百度率先推出生成式大語言模型——文心一言,填補了國内這一領域空白,并在釋出後四個月内,高速疊代至3.5版本,相比3.0版本,訓練速度提高了2倍,推理速度提高了30倍,模型效果累計提升超過50%。在首個真正意義上的權威機構評測(IDC《AI大模型技術能力評估報告,2023》)中,文心大模型超越GPT-3.5,并摘得國内大模型表現第一名的桂冠。10月,李彥宏宣布文心大模型4.0正式釋出,并發表了“文心大模型4.0綜合能力與GPT-4相比毫不遜色”的豪言壯語。

此外,阿裡巴巴與騰訊則分别在上、下半年釋出了自家的大模型:通義千問和混元。随着百川智能、智譜AI、零一萬物等一衆初創公司加入基礎大模型混戰,國内大模型市場徹底進入“戰國”時代。

卷算力:大模型率先重構雲計算,2024智能計算開始拼「成本效益」

大模型需要巨量的算力資源來支撐龐大的系統和訓練、推理任務。

從全球主流大模型玩家的成分中我們不難看出,如AWS、微軟、Google、百度、阿裡等,本身都是雲計算廠商,有着充足的算力儲備。而OpenAI、Anthropic、智譜AI、百川智能等創業公司雖然自身不具備雲服務能力,但也需要依附雲計算廠商才能實作模型的疊代更新。

收入創下 181.2 億美元的紀錄,環比增長 34%,同比增長 206%;資料中心收入創下 145.1 億美元的紀錄,環比增長 41%,同比增長 279%,這是英偉達交出的第三季度财報資料。創始人兼首席執行官黃仁勳表示:“從公司強勁的增長中可知,各行各業都在經曆從通用計算到加速計算和生成式 AI 的平台轉型。”

雲計算廠商在大模型發展浪潮中有着創業公司無法比拟的巨大優勢。近期,Omdia Research釋出的英偉達GPU出貨量測算圖在網絡上走紅,則在一定程度上反映了雲計算大廠對AI算力的焦慮。但是大模型的算力僅靠買買買就夠了嗎?

盤點2023,大模型産業狂奔的365天

事實上,雲計算廠商普遍選擇多條腿走路的方式,除了囤積GPU以外,基于自身對大模型技術的了解,打造面向大模型訓練、推理場景的專屬的DSA(Domain Specific Architecture)架構晶片,規模化使用後不但可以攤薄成本,還可以避免未來被單一GPU供應商所綁定。比如AWS打造的Trainium和Inferentia系列晶片、微軟的Maia、華為的昇騰、百度昆侖芯等。

随着摩爾定律放緩甚至失效,大模型對智算叢集有效算力、穩定性提出極高要求,異構算力和智算叢集的系統級優化至關重要,比如微軟除了大宗采購英偉達GPU之外,還将大力引入AMD Instinct MI300X等異構算力,并大力優化基于自研晶片Maia的智算叢集。

國内,以百度為首的雲計算廠商也在智算領域投入了大量精力。比如百度在年底釋出了基于自研昆侖芯和華為昇騰打造的兩款AI計算執行個體,更新AI異構計算平台百舸3.0,萬卡叢集有效訓練時間占比達到98%,同時相容一衆國内外主流AI晶片等舉措,可謂是珠玉在前,國内市場無人出其右。

卷工具:大模型從“毛坯房”到“精裝修”,2024繼續卷“平台配套”

大模型技術的突破,除了大資料、大算力這些“硬疙瘩”,背後常常被忽視的還有平台、工程化等方面的積累,這些也是客戶用好大模型的關鍵要素。

創業公司普遍聚焦開發大模型本身,并且有不少選擇了開源路線。雖然開源擁有更好的靈活性,但是大模型時代,除了昂貴的算力成本,缺少配套工具還會産生極高的隐形成本,并對客戶AI技術儲備和二次開發能力提出了極高要求。對于使用者來說,大模型不應該是“毛坯房”,也不能沒有“物業”。

有别于傳統深度學習時代小模型的開發範式,大模型需首先要全新的、完整的工具鍊來支撐從資料管理、到模型的重訓、精調、評估等開發的全流程。而在全球範圍内,首先推出此類平台的既不是OpenAI、也不是微軟、AWS、Google這些海外巨頭,而是百度。

大模型本身和配套工具必須得齊步走,不然光說大模型落地千行百業,模型廠商能挨家挨戶做定制化嗎?這一點上,百度想的很清楚。

2023年3月,百度推出文心一言大模型時,李彥宏講到文心一言更大的故事是在雲計算。短短10天之後,百度智能雲就揭曉了答案,推出全球首個企業級一站式大模型平台千帆,宣告百度不但能做出國内最好的大模型,還要幫其他人做好大模型。而在5月的一場活動中,百度工程師還在國内首次示範了如何基于一站式平台微調行業專屬大模型的全過程。

盤點2023,大模型産業狂奔的365天

随後,阿裡雲CTO周靖人在10月底的雲栖大會釋出了阿裡雲百煉大模型服務平台;微軟則是在11月中旬釋出了自家大模型服務平台Azure AI Studio;AWS則是在11月底才更新了Amazon Bedrock服務功能,新增包括模型微調、基于Amazon Titan大模型的預訓練等功能。

卷應用:應用開發範式被全面颠覆,2024 AI原生應用将湧現

在模型之上,如何幫助使用者開發大模型應用,也是必須解決的問題。說到底,大模型是一項新技術,本身并不帶來價值,真正創造巨大價值的是模型上層的應用。對此,各大廠商的思路則有所不同。

OpenAI、微軟選擇了相對封閉的,強化自身應用生态的政策。比如OpenAI在23年11月召開的首屆開發者大會上,連續放出GPTs和AssistantAPI兩大GPT原生應用開發殺手锏,也給一直趨附自己的AI Agent創業公司和大模型中間件廠商敲響了警鐘;微軟則推出Copilot Studio,幫助使用者建構基于Microsoft 365全家桶的智能助理。

其他廠商選擇了更開發的方式,但在幫助使用者開發大模型應用這件事兒上,除百度以外則鮮有發力。百度在2023下半年針對大模型應用開發,釋出了AI原生應用開發工作台AppBuilder,将開發大模型應用常用的原子化元件、RAG(檢索生成增強)、Agent等架構進行了封裝和模闆呈現,開放低代碼和代碼态兩種産品形态去适配不同開發者的需要。值得一提的是,百度沒有将應用開發與自家文心大模型做緊耦合,而是在文心大模型之外預置了經過增強處理的幾十個主流開源大模型,給開發者更多選擇。

盤點2023,大模型産業狂奔的365天

不同于HuggingFace、魔搭等模型社群,更多面向開發者的定位,百度更注重應用與産業生态的建設,從大模型平台調好的模型直接通往應用工作台,從應用工作台開發好的應用則可以上架AI原生應用市場,形成技術到市場,再到商業的鍊路閉環。

而在大模型落地行業方面,前有華為喊出盤古大模型“不作詩、隻做事”,後有百度智能雲基于大模型重構政務、金融、工業、交通四大行業解決方案,為行業ISV提供全鍊路支援體系。我們有理由期待,在大模型技術落地行業方面,中國速度将再次震驚世界。

回望2023,大模型這個科技界的“天選之子”破圈突圍,成為全社會熱點,但它畢竟還是個“孩子”,在熱切的期待下也難免會使人感受到落差。對于普通群眾和來說,大模型引領的“智能曙光”正在照進現實;但對于投身大模型浪潮的科技公司來說,還有很多亟待完成的工作。

Sam Altman在聖誕節前夕寫下了OpenAI 的2024發展清單。下一個,又會是誰?

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态