天天看點

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

作者:新智元

編輯:桃子 好困

【新智元導讀】殺瘋了!一夜之間,全球最強端側多模态模型再次重新整理,僅用8B參數,擊敗了多模态巨無霸Gemini Pro、GPT-4V。而且,其OCR長難圖識别重新整理SOTA,圖像編碼速度暴漲150倍。這是國産頭部大模型公司獻給開發者們最浪漫的520禮物。

拳打GPT-4V,腳踢Gemini Pro,僅僅8B參數就能擊敗多模态大模型王者。

今天,這個全球最強端側多模态模型徹底「殺瘋了」!

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

衆所周知,端側模型是AI發展的大趨勢——從微軟、谷歌再到蘋果和英特爾,全球科技巨頭都在争搶在PC和手機等端側場景的AI落地。

但萬萬沒想到的是,端側模型的性能竟然可以這麼猛,進化速度竟然可以這麼快!

更令人驚喜的是,它不是來自國外大廠,而是出自國内大模型研發實力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5。

而且,選擇在今天520這個特殊的日子推出,據說是送給開源社群的情人節禮物,簡直浪漫的不像個科技公司~

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

MiniCPM-Llama3-V 2.5開源位址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列開源位址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下載下傳位址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

那麼這個小鋼炮究竟有多強?何以能擔當得起全球最強端側多模态模型的稱号?

總結來講,MiniCPM-Llama3-V 2.5不僅支援30+多種語言,而且還具備:

  • 最強端側多模态綜合性能:超越多模态巨無霸Gemini Pro、GPT-4V;
  • OCR能力SOTA!9倍像素更清晰,難圖長圖長文本精準識别;
  • 圖像編碼快150倍!首次端側系統級多模态加速。
國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

下面這張圖反映了在全球範圍内,小參數、高性能的多模态大模型已經成為趨勢;

而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。

MiniCPM-Llama3-V 2.5用實力證明了——模型不是隻有「參數越大才能性能越好」,而是可以用最小參數撬動最強性能!

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

另外随着大模型參數愈益降低、端側算力愈益增強,高性能端側模型勢頭強勁。

而手機、PC等智能終端裝置因其高頻的影像視覺處理需求,對在端側部署AI模型提出了更高的多模态識别與推理能力要求。

從面壁「小鋼炮」三月三級跳的迅猛進化來看,推動推理成本大幅降低、大模型高效落地,勝利在望。

OCR能力SOTA+最強端側多模态

8B端側模型,超越GPT-4V、Gemini Pro

這一次,MiniCPM-Llama3-V 2.5以8B端側模型參數量級,貢獻了驚豔的 OCR(光學字元識别)SOTA成績,以及端側模型中的最佳多模态綜合成績與幻覺能力水準。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

模型雷達圖,MiniCPM-Llama3-V 2.5綜合能力水準全面優秀

在綜合評測權威平台OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,綜合性能超越多模态巨無霸GPT-4V和Gemini Pro。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

OCR(光學字元識别)是多模态大模型最重要的能力之一,也是考察多模态識别與推理能力的硬核名額。

新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權威榜單OCRBench上,越級超越了Claude 3V Opus、Gemini Pro等标杆模型,實作了性能SOTA。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

在評估多模态大模型性能可靠性的重要名額——幻覺能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等衆多模型(注:目标幻覺率應為0)。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

在評估多模态模型的基本現實世界空間了解能力的RealWorldQA榜單上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,這對8B模型而言難能可貴。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

快150倍!首次端側系統級加速

支援30+多語言,擁抱世界開源社群

首次進行端側系統級加速,MiniCPM-Llama3-V 2.5已高效部署手機。

在圖像編碼方面,面壁首次整合NPU和CPU加速架構,在MiniCPM-Llama3-V 2.5圖像編碼方面實作了150倍加速提升。

在語言模型推理方面,目前開源社群的報告結果顯示,Llama 3語言模型在手機端側的解碼速度在0.5 token/s上下,相比之下,多模态大模型的端側運作面臨着更大的效率挑戰,經過CPU、編譯優化、顯存管理等優化方式,面壁将 MiniCPM-Llama3-V 2.5在手機端的語言解碼速度提升到3-4 token/s。

目前,語言模型的圖像編碼加速也在進行中,更靈敏互動體驗即将到來。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

(此處GIF為2倍速示範,面壁正進一步加速優化中)

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

(此處GIF為2倍速示範,面壁正進一步加速優化中)

有别于常見的中英雙語模型,MiniCPM-Llama3-V2.5可支援30+多種語言,

包括德語、法語、西班牙語、意大利語、俄語等主流語言,基本覆寫一帶一路國家。

基于自研的跨語言泛化技術,僅通過少量翻譯的多模态資料的指令微調,就可對多語言多模态對話性能高效泛化。

現在,上百個國家的幾十億人口,終于可以自如使用母語和端側大模型交流,不再遊離于前沿科技發展的主線,也是以享有更多AI應用落地、生活品質提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂趣!

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

多語言案例展示(語言加速工作正在進行,此處為2倍速)

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

多語言版本LLaVABench評測結果,MiniCPM-Llama3-V 2.5對話能力更勝一籌

9倍像素更清晰

難圖長圖長文本精準識别

OCR技術進一步打磨,複雜推理與多模态識别能力再進化,MiniCPM-Llama3-V 2.5對于難圖、長圖、長文本的精準識别,再度帶來出衆表現!

面壁自研高清圖像高效編碼技術,可以高效編碼及無損識别180萬高清像素圖檔,并且支援任意長寬比、甚至「有點變态」的1:9極限比例圖像,突破了傳統技術僅能識别20萬像素小圖的瓶頸。

此前,MiniCPM-V系列多模态模型就因對于街景、長圖等困難場景的高效解析,赢得了良好口碑。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

技術更新,MiniCPM-Llama3-V 2.5在複雜推理能力上進一步突破。可更好地深入洞察圖像,在更複雜、更接近人類的水準上進行思考和解決問題,堪稱大模型中的「小福爾摩斯」。

複雜推理能力使得模型不僅能了解單的文本或圖像等模态資訊,還能跨越不同模态間的綜合資訊,做出更準确和深入的分析。

比如給定一張充滿繁密字迹的建築風景圖,難以人眼辨識,但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題,還能正确推理出這些建築是為了紀念《三體》及其對中國科幻文學的貢獻而設計,令人會心一笑。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座
國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

把同樣的問題抛給GPT-4V,結果并不理想。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

另外,識别包含複雜邏輯的流程圖是多模态模型推理能力的直覺展現,MiniCPM-Llama3-V 2.5不僅能夠輕松看懂流程圖中不同子產品的文字、箭頭之間的空間位置和複雜邏輯關系,還能給出清晰易懂的解釋說明。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座
國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

給媽媽轉發一張亞洲飲食金字塔圖,但她讀不懂英文?

MiniCPM-Llama3-V 2.5憑借出色的推理能力,不僅深入了解分析圖像裡的飲食類型和分布,還能洞察背後的營養均衡需求,進行智能化搭配組合,直接一次性用中文推薦出滿滿一周的三餐食譜。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座
國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

全文OCR能力方面,結構化資訊提取能力的提升,對于長圖長文本的精準識别大有幫助。

例如輸入一張包含稠密資訊的長文長圖,MiniCPM-Llama3-V 2.5一字不差地識别出了全文。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

上下滑動檢視

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

再給一張要翻閱好幾屏的圖文複雜交錯的長圖難圖長文本,MiniCPM-Llama3-V 2.5 也能精準給出正确的回答。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

上下滑動檢視

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座
國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

再輸入一張手機拍攝的火車票,MiniCPM-Llama3-V 2.5 也能準确提取資訊,給出無誤的「json」格式輸出。

國産小鋼炮一夜幹翻GPT-4V、Gemini Pro!穩坐端側多模态鐵王座

最後,面壁是開源社群的熱心貢獻者,也是受益者。

本次MiniCPM-Llama3-V 2.5的飛躍表現依托于面壁團隊對多模态技術的創新打磨,更離不開Llama3-8B-Instruct作為基座模型的性能基礎。

感謝世界優秀同行的卓越工作,令我們站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科學無垠之處。

我們也将持續回報社群,開源更多優秀模型、資料、infra工具等,将開源開放的星火播撒世界協作創新之蒼穹。

參考資料:

MiniCPM-Llama3-V 2.5開源位址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列開源位址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下載下傳位址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

繼續閱讀