編輯：桃子好困

【新智元導讀】殺瘋了！一夜之間，全球最強端側多模态模型再次重新整理，僅用8B參數，擊敗了多模态巨無霸Gemini Pro、GPT-4V。而且，其OCR長難圖識别重新整理SOTA，圖像編碼速度暴漲150倍。這是國産頭部大模型公司獻給開發者們最浪漫的520禮物。

拳打GPT-4V，腳踢Gemini Pro，僅僅8B參數就能擊敗多模态大模型王者。

今天，這個全球最強端側多模态模型徹底「殺瘋了」！

衆所周知，端側模型是AI發展的大趨勢——從微軟、谷歌再到蘋果和英特爾，全球科技巨頭都在争搶在PC和手機等端側場景的AI落地。

但萬萬沒想到的是，端側模型的性能竟然可以這麼猛，進化速度竟然可以這麼快！

更令人驚喜的是，它不是來自國外大廠，而是出自國内大模型研發實力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5。

而且，選擇在今天520這個特殊的日子推出，據說是送給開源社群的情人節禮物，簡直浪漫的不像個科技公司~

MiniCPM-Llama3-V 2.5開源位址：

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列開源位址：

https://github.com/OpenBMB/MiniCPM

Hugging Face下載下傳位址：

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

那麼這個小鋼炮究竟有多強？何以能擔當得起全球最強端側多模态模型的稱号？

總結來講，MiniCPM-Llama3-V 2.5不僅支援30+多種語言，而且還具備：

最強端側多模态綜合性能：超越多模态巨無霸Gemini Pro、GPT-4V；
OCR能力SOTA！9倍像素更清晰，難圖長圖長文本精準識别；
圖像編碼快150倍！首次端側系統級多模态加速。

下面這張圖反映了在全球範圍内，小參數、高性能的多模态大模型已經成為趨勢；

而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。

MiniCPM-Llama3-V 2.5用實力證明了——模型不是隻有「參數越大才能性能越好」，而是可以用最小參數撬動最強性能！

另外随着大模型參數愈益降低、端側算力愈益增強，高性能端側模型勢頭強勁。

而手機、PC等智能終端裝置因其高頻的影像視覺處理需求，對在端側部署AI模型提出了更高的多模态識别與推理能力要求。

從面壁「小鋼炮」三月三級跳的迅猛進化來看，推動推理成本大幅降低、大模型高效落地，勝利在望。

OCR能力SOTA+最強端側多模态

8B端側模型，超越GPT-4V、Gemini Pro

這一次，MiniCPM-Llama3-V 2.5以8B端側模型參數量級，貢獻了驚豔的 OCR（光學字元識别）SOTA成績，以及端側模型中的最佳多模态綜合成績與幻覺能力水準。

模型雷達圖，MiniCPM-Llama3-V 2.5綜合能力水準全面優秀

在綜合評測權威平台OpenCompass上，MiniCPM-Llama3-V 2.5以小博大，綜合性能超越多模态巨無霸GPT-4V和Gemini Pro。

OCR（光學字元識别）是多模态大模型最重要的能力之一，也是考察多模态識别與推理能力的硬核名額。

新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權威榜單OCRBench上，越級超越了Claude 3V Opus、Gemini Pro等标杆模型，實作了性能SOTA。

在評估多模态大模型性能可靠性的重要名額——幻覺能力上，MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等衆多模型（注：目标幻覺率應為0）。

在評估多模态模型的基本現實世界空間了解能力的RealWorldQA榜單上，MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro，這對8B模型而言難能可貴。

快150倍！首次端側系統級加速

支援30+多語言，擁抱世界開源社群

首次進行端側系統級加速，MiniCPM-Llama3-V 2.5已高效部署手機。

在圖像編碼方面，面壁首次整合NPU和CPU加速架構，在MiniCPM-Llama3-V 2.5圖像編碼方面實作了150倍加速提升。

在語言模型推理方面，目前開源社群的報告結果顯示，Llama 3語言模型在手機端側的解碼速度在0.5 token/s上下，相比之下，多模态大模型的端側運作面臨着更大的效率挑戰，經過CPU、編譯優化、顯存管理等優化方式，面壁将 MiniCPM-Llama3-V 2.5在手機端的語言解碼速度提升到3-4 token/s。

目前，語言模型的圖像編碼加速也在進行中，更靈敏互動體驗即将到來。

（此處GIF為2倍速示範，面壁正進一步加速優化中）

有别于常見的中英雙語模型，MiniCPM-Llama3-V2.5可支援30+多種語言，

包括德語、法語、西班牙語、意大利語、俄語等主流語言，基本覆寫一帶一路國家。

基于自研的跨語言泛化技術，僅通過少量翻譯的多模态資料的指令微調，就可對多語言多模态對話性能高效泛化。

現在，上百個國家的幾十億人口，終于可以自如使用母語和端側大模型交流，不再遊離于前沿科技發展的主線，也是以享有更多AI應用落地、生活品質提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂趣！

多語言案例展示（語言加速工作正在進行，此處為2倍速）

多語言版本LLaVABench評測結果，MiniCPM-Llama3-V 2.5對話能力更勝一籌

9倍像素更清晰

難圖長圖長文本精準識别

OCR技術進一步打磨，複雜推理與多模态識别能力再進化，MiniCPM-Llama3-V 2.5對于難圖、長圖、長文本的精準識别，再度帶來出衆表現！

面壁自研高清圖像高效編碼技術，可以高效編碼及無損識别180萬高清像素圖檔，并且支援任意長寬比、甚至「有點變态」的1:9極限比例圖像，突破了傳統技術僅能識别20萬像素小圖的瓶頸。

此前，MiniCPM-V系列多模态模型就因對于街景、長圖等困難場景的高效解析，赢得了良好口碑。

技術更新，MiniCPM-Llama3-V 2.5在複雜推理能力上進一步突破。可更好地深入洞察圖像，在更複雜、更接近人類的水準上進行思考和解決問題，堪稱大模型中的「小福爾摩斯」。

複雜推理能力使得模型不僅能了解單的文本或圖像等模态資訊，還能跨越不同模态間的綜合資訊，做出更準确和深入的分析。

比如給定一張充滿繁密字迹的建築風景圖，難以人眼辨識，但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題，還能正确推理出這些建築是為了紀念《三體》及其對中國科幻文學的貢獻而設計，令人會心一笑。

把同樣的問題抛給GPT-4V，結果并不理想。

另外，識别包含複雜邏輯的流程圖是多模态模型推理能力的直覺展現，MiniCPM-Llama3-V 2.5不僅能夠輕松看懂流程圖中不同子產品的文字、箭頭之間的空間位置和複雜邏輯關系，還能給出清晰易懂的解釋說明。

給媽媽轉發一張亞洲飲食金字塔圖，但她讀不懂英文？

MiniCPM-Llama3-V 2.5憑借出色的推理能力，不僅深入了解分析圖像裡的飲食類型和分布，還能洞察背後的營養均衡需求，進行智能化搭配組合，直接一次性用中文推薦出滿滿一周的三餐食譜。

全文OCR能力方面，結構化資訊提取能力的提升，對于長圖長文本的精準識别大有幫助。

例如輸入一張包含稠密資訊的長文長圖，MiniCPM-Llama3-V 2.5一字不差地識别出了全文。

上下滑動檢視

再給一張要翻閱好幾屏的圖文複雜交錯的長圖難圖長文本，MiniCPM-Llama3-V 2.5 也能精準給出正确的回答。

上下滑動檢視

再輸入一張手機拍攝的火車票，MiniCPM-Llama3-V 2.5 也能準确提取資訊，給出無誤的「json」格式輸出。

最後，面壁是開源社群的熱心貢獻者，也是受益者。

本次MiniCPM-Llama3-V 2.5的飛躍表現依托于面壁團隊對多模态技術的創新打磨，更離不開Llama3-8B-Instruct作為基座模型的性能基礎。

感謝世界優秀同行的卓越工作，令我們站在彼此的肩膀上，伸手摘星，指向更高、更璀璨的科學無垠之處。

我們也将持續回報社群，開源更多優秀模型、資料、infra工具等，将開源開放的星火播撒世界協作創新之蒼穹。

參考資料：

MiniCPM-Llama3-V 2.5開源位址：

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列開源位址：

https://github.com/OpenBMB/MiniCPM

Hugging Face下載下傳位址：

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro！穩坐端側多模态鐵王座

繼續閱讀

與好友五排吧，一起感受國産3A《燕雲十六聲》的魅力！

國産晶片達到3514億顆！自給率達到23%，美企開始尋求出貨

借《玫瑰的故事》玫瑰被媽媽扇巴掌的事情，想說一下國産劇的父。在其它人物設定和故事走向相當的情況下，國産劇裡的父母，一旦從

最貴國産車上市，售價718萬元！

我軍遠端火箭炮兵，國産03A式300毫遠端火箭炮，現在全部使用北鬥衛星+慣導精确複合制導火箭彈，（第一代簡易修正火箭彈已

2024年前5個月國産車出口，第一名不是比亞迪，為何是它？

國産遊戲熱度第一！Steam新品節最熱門遊戲一覽

競争力不遜豐田漢蘭達，全新現代勝達國産版即将登場

藍色實車首次曝光，豐田普拉多PRADO國産後魅力大增

希望盡快國産！豐田Grand Highlander家用7座版亮相

國産豪華SUV的颠覆者：星途淩雲王者版隻要12.99萬元

以前隻用蘋果手機，覺得其他的都是低端手機。自從用了華為之後，再也不想用其他手機了，華為手機是我用過最奈斯的手機，真的比蘋

國産豪車 | 紅旗國禮正式上市：718萬元起，豪華與創新的典範

AI手機，蘋果又走在了國産廠商前面？

華為鴻蒙如今在中國市場的份額已然超越了蘋果的iOS，這一成就無疑為國産作業系統争得了巨大的榮譽。從最新釋出的資料來看，華

718萬元！史上最貴國産車開賣，馬來西亞國王成為車主