天天看點

面壁不隻要做中國Mistral,還要超過它

作者:硬梗娛樂

作者|周一笑

郵箱|[email protected]

時隔七十多天,面壁在釋出了MiniCPM-2B後又帶來四個特性鮮明的模型,同時它還官宣了數億元的新融資。

此次融資由春華創投、華為哈勃領投,北京市人工智能産業投資基金等跟投,知乎作為戰略股東持續跟投支援。這是其成立後最大的一筆融資。這家常被拿來對标Mistral的公司,并不滿足于隻做一個“中國Mistral”,彈藥充足後,它要把“打精銳”這件事進行到底了。

小而強,小而全:小鋼炮四連發

今年二月初,面壁智能釋出了2B參數的開源端側模型MiniCPM-2B,并稱之為“小鋼炮”,在更小參數的基礎上實作了Mistral-7B、Llama2-13B的性能。自釋出以來,MiniCPM-2B多次登頂 GitHub Trending,還收獲了HuggingFace聯合創始人Thomas Wolf的稱贊。

時隔七十多天,面壁智能一次性釋出了四個模型,我們來看看它們的表現。

多模态模型 MiniCPM-V 2.0

MiniCPM-V 2.0是可部署在手機端的多模态大模型,規模隻有2.8B左右,但在主流的評測中取得了很好的分數。OpenCompass榜單,綜合11個主流評測基準,通用能力超過Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-LV-34B。

面壁智能特别強調了MiniCPM-V 2.0的幻覺機率很低,與持平GPT-4V,在評估大模型幻覺的Object HalBench榜單上,MiniCPM-V 2.0是14.5%,GPT-4V是13.6%。

面壁不隻要做中國Mistral,還要超過它

MiniCPM-V2.0在OCR能力方面,場景圖檔文字識别榜單TextVQA超越了全系13B量級模型,比肩Gemini Pro。MiniCPM-V2.0 還加強了對于長圖的識别和了解,以及對各種尺寸圖檔的相容進行了優化,支援從448x448像素,到180萬像素的高清大圖,也支援1:9的極限寬高比。

面壁不隻要做中國Mistral,還要超過它

長文本模型MiniCPM-2B-128K

長文本已然成為大模型的一種“标配”,而MiniCPM-2B-128K用2B的規模實作了128K長文本能力,在InfiniteBench榜單的平均成績超過Yarn-Mistral-7B-128K、Yi-6B-200K、ChatGLM3-6B-128K、LWM-Text-128K,在7B以下的模型中做到了最好的表現。

“長文本這件事情才剛剛開始,雖然是2B的模型,還是需要非常大的記憶體才能讓模型跑起來,下一步會進一步做更加極緻的技術探索,讓長文本模型在端側跑起來。”

面壁不隻要做中國Mistral,還要超過它

MOE版本 MiniCPM-MoE-8x2B MoE

MiniCPM-MoE-8x2B MoE,引入了MoE架構,性能增強,能讓模型在原有基礎上平均水準有4.5%的提高。相比完全從頭開始訓練,節省訓練成本。通過MOE的方式,平均激活參數隻有4B,但是比LiaMA2-34B、Gemma-7B等模型效果都要好,推理成本僅為Gemma-7B的69.7%。

“更Mini”的MiniCPM-1.2B

MiniCPM-1.2B參數減少了一半,而能夠保持仍保持上一代2.4B模型87%的綜合性能,這其中涉及許多優化,例如把詞表中不高頻的詞替換。在多個榜單測試中,MiniCPM-1.2B綜合性能超過Qwen1.8B、llama2-7B,甚至超過llama2-13B。

面壁不隻要做中國Mistral,還要超過它

通過讓1.2B的模型效果超過了1.8B的模型,實作了手機端 25tokens/s。随着模型的變小,成本、和記憶體占用也随之降低,相比于MiniCPM-2.4B,MiniCPM-1.2B記憶體減少51.9%,成本下降60%。

“模型小了,使用場景大了”。MiniCPM-1.2B除了能夠支援配置更低的手機,在諸如情感陪護、實時翻譯等應用場景都有着廣泛的應用。“他們對于更小更強的模型都是非常期待的”。

不止于“中國版Mistral”

面壁智能CEO李大海将此次釋出的系列模型總結為“小而強,小而全”,并再次強調了面壁智能的底層邏輯:一家追求高效大模型的公司。這很容易讓人聯想到同樣是追求高效,同樣做小參數高性能模型,同樣受到開源社群追捧的“歐洲Open AI”Mistral。

不過面壁智能顯然不想隻是做第二家Mistral,這家聚集了中國最早一批研究大模型的技術人員的公司有着自己鮮明的技術判斷和産品路線。

面壁智能高效訓練的方法論展現在模型訓練實驗科學化的思路上,在基礎設施上,面壁智能很早就自研了BMTrain等架構來支撐大模型的訓練,進而降低訓練成本。

在算法層面上,面壁智能通過進行大量的“沙盒實驗”,對模型批次大小、超參數配置等最優訓練配置進行了探索,從理論上尋找最優解,用更小的成本和代價去搞清楚規律。比如在較小參數的模型上做大量沙盒實驗,通過科學化實驗化的“煉丹”,用小模型預估更大規模參數模型的性能、參數方案,最終實作以小博大。

“持續研究更好的ScalingLaw,用更大的模型壓縮效果,用更少的資料訓練出更好的模型、更小的模型。”

此外,在基礎模型之外,面壁的另一個重點方向在AI Agent,這也與Mistral很不同。

面壁智能是最早進行Agent研究的團隊之一,ChatDev是面壁智能聯合OpenBMB 及清華大學NLP實驗室開源的大模型+Agent項目,ChatDev就像是多個Agent協作營運的軟體開發公司,使用者指定需求後,不同角色的Agent進行互動式協同,産出包括源代碼、環境依賴說明書、使用者手冊在内的完整軟體。通過多智能體協作,可以在現有模型中産生更好的效果。這也就是吳恩達近期在紅杉AI峰會上所說的GPT3.5 + Agentic Workflow >GPT4,實際上,吳恩達在演講中直接使用了ChatDev作為案例。

Agent是面壁智能商業化的重要突破口,ChatDev也從論文研究、開源産品,開始走向了商業化,面壁智能推出了AI Agent的SaaS化産品ChatDev,嘗試幫助軟體開發者和創業者以更低成本和門檻完成軟體開發工作。與此同時,面壁智能也在探索大模型+Agent在金融、教育、政務、智能終端等場景的商業應用落地。

OpenAI用大力出奇迹提供了一條通往AGI的路徑,但抵達彼岸的方法并非隻有一條。在瘋狂燒錢拼算力的大模型行業,僅靠單一次元的提升會出現瓶頸,而且這種提升可能會受到邊際效益遞減的影響。面壁智能用實驗科學的方式做基礎模型研究,強調高效,某種程度上追求的是一種“成本效益”。在相同資源的情況下,面壁可以利用“高效”的杠杆獲得更高的收益。MiniCPM系列模型已經證明了在相同的資源内把模型做得更好是可行的,接下來可以期待面壁延續這個思路,拿出GPT-4級别的模型産品。

相較之下,Mistral雖然在推出了号稱挑戰GPT-4的大模型産品,但不僅在商業模式上越來越卻像OpenAI,Mistral Large也不再開源,這讓人開始質疑,拿了微軟投資之後的Mistral,是否走上了OpenAI的老路,最終成為微軟的又一個“附庸”。

如果說追求高效是面壁智能和Mistral相同之處,而對于Agent的研究投入和積累,又讓面壁這家公司擁有了不同的商業化道路。從網站到App,我們見證了網際網路原生應用主要載體的變遷,在AI時代,Agent具備了新的潛力,小鋼炮們又成為挖掘這種潛力的最佳載體。

從對标Mistral 、再到超越Mistral,面壁智能或許選擇了一條少有人走的路,但它已經有了足夠的底氣繼續走下去。

繼續閱讀