科學家打造多模态模型，7B和1.3B小模型均開源，可部署手機等終端

在最近一項研究中，DeepSeek-AI 團隊針對多模态大模型展開了深入探索。選擇這一研究方向，背後有着多重考量。

最初，該團隊圍繞是否聚焦于多模态生成、多模态了解、或是兩者的統一架構進行了廣泛讨論。

基于對通用人工智能（AGI，General Artificial Intelligence）的追求——這一點也一直是他們的研究主線和研究理想，最終其決定緻力于深化對于開放世界的了解。

（來源：arXiv）

他們相信這不僅是實作先進多模态生産的前提，長期來看也可以對多模态生成進行賦能。

比如，Sora 就使用了多模态模型對訓練資料進行了大量的标注，這也證明長遠來看“了解與生成”一定是互相補充、互相促進的關系。

此外，他們選擇先從增強大語言模型的更多模态處理能力入手，也是鑒于該團隊在語言了解領域積累的深厚經驗。

這一決策同樣受到了科技界廣泛關注的趨勢影響——即強化大模型的多模态能力，包括強化對于文本和圖像的了解。

這一方向被認為是未來發展的關鍵，能夠極大地拓展大模型在現實世界的應用範圍，比如為視障人士提供輔助，或在機器人技術和日常生活自動化等領域的應用。

然而，目前市場上表現出色的多模态大模型大多為閉源（如 OpenAI 的 GPT4V、Google 的 Gemini），這限制了多模态大模型在更廣泛領域的應用和發展。

而目前大部分開源多模态模型目前主要還是集中在學術領域，且對預訓練模型的深入探索較少。

鑒于此，他們認為開發一個面向實際應用場景的開源多模态模型，不僅對科技社群有重大意義，也将極大地促進多模态大模型在更多跨領域的發展。

研究中，該團隊首先從一個 10 億參數的小模型開始，逐漸擴充到幾十億參數規模的模型，一步一步地走完了整個多模态預訓練流程。

過程中他們從資料、模型架構與訓練政策上協同推進，最終把相關發現形成科技報告并開放給所有人，也開源了最終的預訓練模型與微調模型。

值得一提的是，本次成果與蘋果公司最近釋出的多模态模型 MM1 有着很多相似之處。

多模态大模型的應用前景極其廣闊，如果把目前的大語言模型（LLM，Large Language Model）視為一個初期的智能體，那麼多模态就是通過擴充其感覺能力，讓這個智能體能夠更全面地與現實世界互動。

（來源：arXiv）

目前，該團隊主要關注視覺模态和語言模态，但未來計劃将其擴充到包括音頻和嗅覺在内的更多模态，使之成為一個真正能夠與世界連接配接的智能體。

從應用角度來看，這種多模态智能體的潛力幾乎是無限的。它們可以成為每個人的超級助理，承擔人類能夠想象到的所有工作。

在初期階段可以作為輔助工具，後續将逐漸發展到徹底将人類從繁重勞動中解脫出來。

這種智能體不僅能夠了解并壓縮人類社會的知識，還能與現實世界進行直接互動，這意味着它們的應用場景非常廣泛，包括但不限于自動化助手、教育、醫療、創造性工作、日常家務等領域。

長期來看，這些多模态大模型的發展潛力可能将遠超人類目前的想象。

預計它們将成為人類社會不可或缺的一部分，幫助人們更有效地利用資源和提高生活品質，同時也能為人類打開一扇視窗，讓我們以全新的方式了解世界。

據介紹，該團隊從 2023 年中開始着手本次項目。最近半年到一年間，整個行業在多模态方向上取得了飛速進展。

科技社群的活動非常熱烈，開源和閉源的模型都變得越來越強大，幾乎每個月都有相關模型釋出，對于他們這些從業者來說是一種鞭策。

同時，相比于架構比較成熟的大語言模型而言，多模态模型的架構并未擁有一個非常确定的結構。

（來源：arXiv）

各個子產品之間的選擇都有值得探索的地方，這些不确定性讓他們更多是感到十分興奮，也讓他們覺得還有更多的機會。

慶幸的是即便在這種情況下，該團隊也得到了不錯的算力支援和資料工程支援。

這讓他們能夠快速疊代，進行更全面的資料采集、更好的資料清理，并能夠優化語言-多模态資料集的配比，以及探索更好的模型結構和訓練政策。

此外，除了開源 7B 模型之外，該團隊同樣也開源了 1.3B 的小模型。

研究人員表示：“DeepSeek-VL 1.3B 小模型的性能同樣強悍，在部分名額上超越了 7B 模型。”

這些小模型可以滿足算力缺乏型開發者使用，也更友善在手機等移動終端上部署。

日前，相關論文以《DeepSeek-VL：面向真實世界的視覺語言了解》（DeepSeek-VL：Towards Real-World Vision-Language Understanding）為題發在 arXiv[1]，Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。

圖 | 相關論文（來源：arXiv）

不過，多模态架構目前還沒有明确的定型，目前的這套 Vision Encoder + Projector + LLM 是不是最終的答案還值得商榷。

研究人員表示：“DeepSeek-VL 是我們在多模态上的第一個起始工作，後續的工作一定是更有趣、更有意義、且更長遠的。”

參考資料：

1.https://arxiv.org/pdf/2403.05525.pdf

2.https://github.com/deepseek-ai/DeepSeek-VL/tree/main

3.https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

營運/排版：何晨龍

科學家打造多模态模型，7B和1.3B小模型均開源，可部署手機等終端

繼續閱讀

榮耀小折真機終于曝光了？！3點值得關注！小地瓜部落客孫千發文中顯示，自拍用的手機正是這個月馬上要釋出的榮耀小折疊真機了！從

六月可以閉眼買的三款中端手機：幾乎零差評，良心推薦

一位十年班主任直言：趁着孩子是低年級，一定要早點養成好習慣立好規矩！！跟孩子簽訂寫作業的規矩，孩子越長大越優秀越自律！首

歲月靜好是片刻，一地雞毛是日常，即使世界偶爾薄涼，内心也要繁華似錦，望遠處是風景，近處才是人生#分享你随手拍的風景##圖

周日靜學（152）：期刊論文基于Stackelberg博弈的公平關切模型

618手機大戰誰是大赢家？沒有懸念，蘋果、華為、小米依舊領先

消息稱iQOO 13“中杯”1.5K 百瓦大電池的直屏手機方案落地

摩托羅拉 moto X50 Ultra 柔和桃限定版手機開售，4699元

黃仁勳打破摩爾定律，要像蘋果造手機一樣年更GPU！最新演講實錄來了

最高1799元封頂？别再說新手機成本效益拉胯了，骁龍8s Gen3真香！

618這款寶藏手機被翻出來了！現在入手隻要兩千多

曝骁龍8 Gen4手機漲價已成定局起售價在4500元左右

紅米千元手機介紹

今日各品牌手機行情

輕薄又好看，vivo S19成了直屏手機新寵

拆了華為手機又動比亞迪，一台小小的海鷗，為何讓美國人破防？