天天看點

萬“模”霜天競自由!開源大模型的春天來了?

作者:資料猿
萬“模”霜天競自由!開源大模型的春天來了?

在當代人工智能領域中,如果将算力比作是AI的燃料,那麼大模型則相當于AI的發動機。算力充當着AI體系運作的根基,使得複雜的算法和模型得以運作,大模型則将這些算力轉換為具體的智能輸出。而開源大模型則是人人都能用得上的發動機。

在資訊技術的發展曆程中,開源社群的作用就像是催化劑,它加速了知識的共享、技術的創新和問題的解決,讓一項新技術以最短的時間疊代完善。這種開放協作的精神如今也在推動大模型的發展。作為人工智能領域的前沿技術,大模型的複雜度和研發成本都相對較高,開源社群的存在極大地降低了這些門檻。

本文将梳理國内外開源大模型的發展現狀,對比不同開源模型的技術路線,尤其是中國開發者的探索和嘗試,找出資料背後隐藏的大模型發展趨勢。

開源大模型的演進 – 從探索到突破

大模型受到廣泛關注無疑是從OpenAI的ChatGPT開始的,而其背後的GPT-3.5和GPT-4都是閉源模型。給人的感覺似乎是整個大模型行業就是由閉源模型撬動的,然而事實恰恰相反。

早在2018年,谷歌就開源了基于Transformer架構的BERT模型,打破了語言模型隻能順序讀取文本的印象。通過雙向輸入,BERT 可以在兩個不同但相關的 NLP 任務上進行預訓練:掩碼語言模組化 (MLM) 和下一句預測 (NSP)。這使得BERT能夠建立上下文來幫助計算機了解文本中的歧義。同時,BERT-large擁有3.4億參數,使用大量文本進行預訓練,并且可以使用問答資料集進行微調。這也奠定了後來“大規模參數+預訓練+微調”的模闆。

2019年,OpenAI開源了GPT-2。相比BERT,GPT-2的生成能力更強,預訓練資料集也更大。而此後的開源模型也逐漸朝着“更多參數,更大資料集,更長上下文”的方向發展。

萬“模”霜天競自由!開源大模型的春天來了?

BERT模型與GPT模型對比圖

2022年,OpenAI的GPT-3橫空出世,參數量來到了1750億,而基于人類回報的強化學習 (RLHF)的概念也深入人心。從這時起,OpenAI便一路領跑。但即便如此,OpenAI的CEO山姆·奧特曼 (Sam Altman)也承認,OpenAI的最終目标是開放的通用人工智能。

由于大模型的訓練成本高昂,很多企業從商業角度考慮,選擇閉源自家的大模型。也有一些企業擔心開源之後,被濫用的模型會帶來安全風險。盡管如此,開源社群依然在蓬勃發展。

2023年,Meta開源LLaMA模型,最大參數量650億,訓練資料量達到2.0 T tokens。

2024年3月,xAI開源Grok模型,最大參數量3140億,是目前開源模型中參數規模最大的。

與此同時,國内的開源大模型也開始嶄露頭角,清華大學聯合智譜AI開源的GLM系列模型就是其中的代表。

全球視角 – 開源大模型的玩家們

根據IISS釋出的報告,目前參與開發大模型的主要國家是中國和美國,此外還有英國、法國、南韓、俄羅斯、以色列,以及衆多的跨國企業和研究機構。如下圖所示,全球大模型的算力需求快速增長,各國都投入了大量資源建立自己的模型。

萬“模”霜天競自由!開源大模型的春天來了?

全球大語言模型算力需求趨勢圖

模型的開發者們嘗試了多樣化的釋出方案,包括不釋出模型(如谷歌截至2023年3月21日對Bard的限量公開)、對API輸出進行限制(例如OpenAI雖然開放了GPT-4的API調用,但是在固定時間内的調用次數非常有限)、在非商業性許可下共享模型(Meta開源了LLaMA,任何人都可以使用,隻有在産品的月活使用者數超過7億的情況下才需要Meta的專門許可),以及将模型完整地、可下載下傳地放到網上(類似于EleutherAI和BigScience研究組的做法)。

總的來說,研究機構和跨國公司更傾向于将模型開源。對于前者來說,開源除了能推動創新,也能一定程度上規避重複工作的風險。而對于後者來說,通過開源,公司可以展示其技術實力,增強品牌影響力,吸引潛在的客戶和合作夥伴(尤其是研發人才),甚至将開源生态打造成自身的競争優勢。比如阿裡巴巴,既開源了QWen大模型,也推出了商用版本,阿裡雲上也有其他的大模型。

要平衡開源和商業并不容易。對于開源部分要有清晰的許可證和商業使用條款,而對于商業部分,一方面要讓使用者和開發者了解開源模型和商業模型之間的差別,保持足夠的透明度,另一方面也需要有相應政策來確定開源模型的商用不會導緻與社群的利益沖突。在行業大發展的背景下,開源利大于弊。

根據大模型之家的測算,2024年,全球大模型市場規模将達到280億美元,到2028年,其規模将達到1095億美元。

萬“模”霜天競自由!開源大模型的春天來了?

如此龐大的市場,中國又在其中占有怎樣的分量呢?

據大資料之家的預測,到2024年,中國大模型産業的規模有望達到216億人民币,

并預計在2028年将增至1179億人民币。

萬“模”霜天競自由!開源大模型的春天來了?

這一市場不僅廣闊,而且發展迅速,加之國内龐大的工程師隊伍,為本土大模型的成長和擴張創造了有利的外部環境。那麼目前的競争格局又呈現出怎樣的特點呢?

開源大模型全景 – 核心玩家和他們的模型

2024年4月18日,Meta釋出了最新開源模型Llama 3,這個模型有80億(8B)和700億(70B)兩個版本的參數。Llama 3是基于超過15萬億(15T)token的資料集進行訓練的,資料集的大小是Llama 2的七倍,而且包含了四倍的代碼資料。

萬“模”霜天競自由!開源大模型的春天來了?

谷歌在2月份開源的Gemma大模型,嘗試用2B和7B的參數規模,實作同尺寸範圍内的最佳性能。

萬“模”霜天競自由!開源大模型的春天來了?

Mistral AI開源了全球首個“專家混合”架構 (MoE)的大模型 Mixtral 8x7B,為AI Agent的發展新添了一把火。而hugging-face網站上的開源大模型排行榜,則記錄了更多玩家的身影。

萬“模”霜天競自由!開源大模型的春天來了?

回到國内這邊,2022年8月,清華大學開源中英雙語預訓練模型 GLM-130B,使用通用模型算法進行預訓練。2023年6月,百川智能釋出開源可商用大規模預訓練語言模型 Baichuan-7B,支援中英雙語。2023年10月,智譜AI 開源ChatGLM3系列模型。2023年11月,vivo開源70億參數的大模型。2023年12月,阿裡雲開源 Qwen-72B、Qwen-1.8B 和Qwen-AudioQwen大模型。

目前大模型的評價名額還沒有形成權威的标準,大部分都是在一些測試集上得出結果,而測試集很容易過拟合。借用Moonshot AI/Kimi創始人楊植麟的話說,大模型就像是新時代的計算機,參數規模相當于CPU,上下文長度相當于記憶體。從這個角度出發,筆者統計了目前國内外主要開源大模型的性能如下 (截止到2024年1月):

萬“模”霜天競自由!開源大模型的春天來了?
萬“模”霜天競自由!開源大模型的春天來了?
萬“模”霜天競自由!開源大模型的春天來了?
萬“模”霜天競自由!開源大模型的春天來了?

技術路徑選擇 - 開源大模型的多元探索

目前絕大多數的開源大模型都是基于 Transformer架構,其主導地位至今無人能撼動。但是反對的聲音也不是沒有,比如“Transformer 的效率太低”、“Transformer無法實作AGI”等等。這是因為Transformer模型的優勢同樣也是其劣勢所在:該模型核心的自注意力機制雖然強大,但也伴随着計算上的挑戰。主要問題在于其處理資訊時的複雜度是二次方增長的,這導緻在處理長序列輸入或在資源受限的環境中,所需的計算資源和記憶體使用量顯著增加,這也是造成當下算力短缺的原因之一。

鑒于Transformer架構存在的限制,衆多替代性模型應運而生,例如中國的RWKV、Meta公司的Mega、微軟亞洲研究院的Retnet、Mamba,以及DeepMind團隊開發的Hawk和Griffin等。這些模型都是在Transformer主導了大模型研發領域之後,相繼被引入的。

2024年1月,開源RWKV的元始智能完成了種子輪融資。RWKV 是一種具有 Transformer 級 LLM 性能的 RNN。它可以像 GPT(可并行化)一樣直接訓練,并結合了 RNN 和 Transformer 的優點。在算力愈發緊張的當下,這樣的探索顯得尤為必要。

Mega通過其多尺度的解碼器架構能夠對超過一百萬位元組的序列進行模組化,這使其能夠處理比傳統模型更長的序列。由于減少了自注意力的計算量,Mega在生成速度上有顯著提升。

RetNet是一種新型自回歸基礎架構,它引入了多尺度保留(Multi-ScaleRetention,MSR)機制來替代Transformer中的多頭注意力機制。RetNet在scaling曲線和上下文學習方面表現出色,推理成本與序列長度無關。它在記憶體消耗、吞吐量和延遲方面優于Transformer,特别是在模型尺寸大于2B時性能通常優于Transformer。

Mamba基于選擇性狀态空間模型(selective state space model),它可以有選擇地決定關注還是忽略傳入的輸入。Mamba具有快速的推理能力(吞吐量比Transformer高5倍)和序列長度線性縮放的特點。它在語言模組化任務中表現優異,可以與兩倍大小的Transformer模型相媲美。

Griffin和Hawk模型都使用了一種新穎的門控線性循環層(RG-LRU),這是一種受線性循環單元啟發的新型循環層,用于建構新的循環塊。Hawk是一個混合了多層感覺器(MLP)和循環塊的模型。Griffin進一步混合了MLP、循環塊和局部注意力,以提高效率。通過結合循環塊和局部注意力,Griffin和Hawk在保持RNN的高效優勢和Transformer的表達能力的同時,實作了更好的性能和資源效率,特别是在處理長序列和大規模參數時。

而在Transformer架構這條賽道上,不同開源模型的差別主要有三個方面:資料使用、訓練政策和優化方法。從上面的表格中也可以看出,很多模型就是基于LLaMA或者Baichuan這樣的預訓練模型,加入專門的資料集,進行微調得到的。而最終性能名額的PK,背後也就是資料、計算資源、以及算法的激烈競争。

中美大模型發展對比

中美大模型的對比,簡單來說就是應用和基礎研發的對比:中國擅長應用落地,而美國則傾向于基礎模型研發。但是落實到具體的行業,中美各自的特色才更為彰顯。

首先,大模型在不同行業的滲透率存在差異。有兩類行業滲透率較高,一類是資料的規模、品質和多樣性比較好的行業,如辦公、交通等,另一類是技術需求高且創新能力強的行業,如金融、文娛等。

中美大模型在各自行業的發展也遵循上述規律。例如在辦公領域,微軟已經在Office中全面引入大模型技術,而國内的金山辦公等廠商也通過接入MinMax、百度文心等大模型緊随其後。在金融領域,中國農業銀行也推出了百億級參數的ChatABC大模型。這是中美相同的地方。

而不同的地方更有意思。

比如教育行業,美國傾向于利用AI輔助教師工作,而中國更側重于應試教育。Turnitin公司旗下的Gradescope是一個作業批改模型,好未來推出的MathGPT則是國内首個數學大模型。

在醫療行業中,中國大模型的滲透受到資料制約,進展緩慢,而美國在資料方面的優勢使其在醫療研發環節更青睐使用大模型。谷歌的Med-PaLM是其中的代表。

在文娛行業,美國的發展遇到了價值觀方面的阻力,中國有望實作彎道超車。攜程推出了首個旅遊行業垂直大模型“攜程問道”,阿裡大文娛的“提香”大模型則引領了妙鴨相機産品的流行。

在交通行業,中美兩國正處于競争狀态,尤其在智能駕駛領域。基于中國在交通領域豐富的基礎資料,以及與電動車、新能源等領域的共振,加上政府在基礎資料和算力方面的政策支援,例如北京、上海等城市都釋出了支援人工智能發展的具體措施,中國交通領域的大模型發展勢必會奏出最強音。

展望未來:開源大模型的發展趨勢與挑戰

盡管開源大模型能助力中小型開發者,在千行百業裡用起來,但筆者認為它們最終無法替代真正的通用大模型。就目前來說,開源模型最大的參數量是3000億,而GPT-4的參數量估算超過1.8萬億。在性能、通用性以及處理複雜任務的能力上,任何開源模型都無法與那些專門為進階應用和研究而設計的封閉或專有的大模型相媲美。

然而,開源模型仍然可以作為一個很好的起點,就像它過去發揮的作用那樣。尤其是在算力短缺的場景下,很多時候我們可能并不需要運作那麼大的模型,就像小米在他們的汽車上裝配的1.3B模型那樣。關鍵還是創造價值。

結論

雖然中國的開源大模型釋出數量衆多,但影響力還不及國外的大模型。這一方面是因為國内下遊市場巨大,人們更傾向于利用龍頭企業的開源模型來做應用落地的創業,而國外則更擅長基礎研究。另一方面,由于人才、資本和技術的限制,中國對大模型項目的一級市場投資也不如國外活躍。在行業應用方面,在尊重技術滲透規律的基礎上,影響大模型發展的是長期積累的基礎資料。

從長遠看,中國的人工智能領域在行業基礎資料和算力方面仍然存在不足,要扭轉這些劣勢不是一夕之功。但是立足于自身的特色,尤其是中文的應用落地方面仍然可以領先一步。

繼續閱讀