天天看點

科學家打造多模态模型,7B和1.3B小模型均開源,可部署手機等終端

作者:DeepTech深科技

在最近一項研究中,DeepSeek-AI 團隊針對多模态大模型展開了深入探索。選擇這一研究方向,背後有着多重考量。

最初,該團隊圍繞是否聚焦于多模态生成、多模态了解、或是兩者的統一架構進行了廣泛讨論。

基于對通用人工智能(AGI,General Artificial Intelligence)的追求——這一點也一直是他們的研究主線和研究理想,最終其決定緻力于深化對于開放世界的了解。

科學家打造多模态模型,7B和1.3B小模型均開源,可部署手機等終端

(來源:arXiv)

他們相信這不僅是實作先進多模态生産的前提,長期來看也可以對多模态生成進行賦能。

比如,Sora 就使用了多模态模型對訓練資料進行了大量的标注,這也證明長遠來看“了解與生成”一定是互相補充、互相促進的關系。

此外,他們選擇先從增強大語言模型的更多模态處理能力入手,也是鑒于該團隊在語言了解領域積累的深厚經驗。

這一決策同樣受到了科技界廣泛關注的趨勢影響——即強化大模型的多模态能力,包括強化對于文本和圖像的了解。

這一方向被認為是未來發展的關鍵,能夠極大地拓展大模型在現實世界的應用範圍,比如為視障人士提供輔助,或在機器人技術和日常生活自動化等領域的應用。

然而,目前市場上表現出色的多模态大模型大多為閉源(如 OpenAI 的 GPT4V、Google 的 Gemini),這限制了多模态大模型在更廣泛領域的應用和發展。

而目前大部分開源多模态模型目前主要還是集中在學術領域,且對預訓練模型的深入探索較少。

鑒于此,他們認為開發一個面向實際應用場景的開源多模态模型,不僅對科技社群有重大意義,也将極大地促進多模态大模型在更多跨領域的發展。

研究中,該團隊首先從一個 10 億參數的小模型開始,逐漸擴充到幾十億參數規模的模型,一步一步地走完了整個多模态預訓練流程。

過程中他們從資料、模型架構與訓練政策上協同推進,最終把相關發現形成科技報告并開放給所有人,也開源了最終的預訓練模型與微調模型。

值得一提的是,本次成果與蘋果公司最近釋出的多模态模型 MM1 有着很多相似之處。

多模态大模型的應用前景極其廣闊,如果把目前的大語言模型(LLM,Large Language Model)視為一個初期的智能體,那麼多模态就是通過擴充其感覺能力,讓這個智能體能夠更全面地與現實世界互動。

科學家打造多模态模型,7B和1.3B小模型均開源,可部署手機等終端

(來源:arXiv)

目前,該團隊主要關注視覺模态和語言模态,但未來計劃将其擴充到包括音頻和嗅覺在内的更多模态,使之成為一個真正能夠與世界連接配接的智能體。

從應用角度來看,這種多模态智能體的潛力幾乎是無限的。它們可以成為每個人的超級助理,承擔人類能夠想象到的所有工作。

在初期階段可以作為輔助工具,後續将逐漸發展到徹底将人類從繁重勞動中解脫出來。

這種智能體不僅能夠了解并壓縮人類社會的知識,還能與現實世界進行直接互動,這意味着它們的應用場景非常廣泛,包括但不限于自動化助手、教育、醫療、創造性工作、日常家務等領域。

長期來看,這些多模态大模型的發展潛力可能将遠超人類目前的想象。

預計它們将成為人類社會不可或缺的一部分,幫助人們更有效地利用資源和提高生活品質,同時也能為人類打開一扇視窗,讓我們以全新的方式了解世界。

據介紹,該團隊從 2023 年中開始着手本次項目。最近半年到一年間,整個行業在多模态方向上取得了飛速進展。

科技社群的活動非常熱烈,開源和閉源的模型都變得越來越強大,幾乎每個月都有相關模型釋出,對于他們這些從業者來說是一種鞭策。

同時,相比于架構比較成熟的大語言模型而言,多模态模型的架構并未擁有一個非常确定的結構。

科學家打造多模态模型,7B和1.3B小模型均開源,可部署手機等終端

(來源:arXiv)

各個子產品之間的選擇都有值得探索的地方,這些不确定性讓他們更多是感到十分興奮,也讓他們覺得還有更多的機會。

慶幸的是即便在這種情況下,該團隊也得到了不錯的算力支援和資料工程支援。

這讓他們能夠快速疊代,進行更全面的資料采集、更好的資料清理,并能夠優化語言-多模态資料集的配比,以及探索更好的模型結構和訓練政策。

此外,除了開源 7B 模型之外,該團隊同樣也開源了 1.3B 的小模型。

研究人員表示:“DeepSeek-VL 1.3B 小模型的性能同樣強悍,在部分名額上超越了 7B 模型。”

這些小模型可以滿足算力缺乏型開發者使用,也更友善在手機等移動終端上部署。

日前,相關論文以《DeepSeek-VL:面向真實世界的視覺語言了解》(DeepSeek-VL:Towards Real-World Vision-Language Understanding)為題發在 arXiv[1],Haoyu Lu、Wen Liu、Bo Zhang 是共同一作。

科學家打造多模态模型,7B和1.3B小模型均開源,可部署手機等終端

圖 | 相關論文(來源:arXiv)

不過,多模态架構目前還沒有明确的定型,目前的這套 Vision Encoder + Projector + LLM 是不是最終的答案還值得商榷。

研究人員表示:“DeepSeek-VL 是我們在多模态上的第一個起始工作,後續的工作一定是更有趣、更有意義、且更長遠的。”

參考資料:

1.https://arxiv.org/pdf/2403.05525.pdf

2.https://github.com/deepseek-ai/DeepSeek-VL/tree/main

3.https://huggingface.co/spaces/deepseek-ai/DeepSeek-VL-7B

營運/排版:何晨龍

繼續閱讀