天天看點

阿裡雲通義千問再開源!持續推動中國大模型生态建設

作者:智能相對論

通義千問開源第二波!8月25日消息,阿裡雲推出大規模視覺語言模型Qwen-VL,一步到位、直接開源。Qwen-VL以通義千問70億參數模型Qwen-7B為基座語言模型研發,支援圖文輸入,具備多模态資訊了解能力。在主流的多模态任務評測和多模态聊天能力評測中,Qwen-VL取得了遠超同等規模通用模型的表現。

Qwen-VL是支援中英文等多種語言的視覺語言(Vision Language,VL)模型,相較于此前的VL模型,Qwen-VL除了具備基本的圖文識别、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字了解等能力。

阿裡雲通義千問再開源!持續推動中國大模型生态建設

多模态是通用人工智能的重要技術演進方向之一。業界普遍認為,從單一感官的、僅支援文本輸入的語言模型,到“五官全開”的,支援文本、圖像、音頻等多種資訊輸入的多模态模型,蘊含着大模型智能躍升的巨大可能。多模态能夠提升大模型對世界的了解程度,充分拓展大模型的使用場景。

視覺是人類的第一感官能力,也是研究者首先想賦予大模型的多模态能力。繼此前推出M6、OFA系列多模态模型之後,阿裡雲通義千問團隊又開源了基于Qwen-7B的大規模視覺語言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL及其視覺AI助手Qwen-VL-Chat均已上線ModelScope魔搭社群,開源、免費、可商用。

使用者可從魔搭社群直接下載下傳模型,也可通過阿裡雲靈積平台通路調用Qwen-VL和Qwen-VL-Chat,阿裡雲為使用者提供包括模型訓練、推理、部署、精調等在内的全方位服務。

阿裡雲通義千問再開源!持續推動中國大模型生态建設

Qwen-VL可用于知識問答、圖像标題生成、圖像問答、文檔問答、細粒度視覺定位等場景。

比如,一位不懂中文的外國遊客到醫院看病,不知怎麼去往對應科室,他拍下樓層導覽圖問Qwen-VL“骨科在哪層”“耳鼻喉科去哪層”,Qwen-VL會根據圖檔資訊給出文字回複,這是圖像問答能力;再比如,輸入一張上海外灘的照片,讓Qwen-VL找出東方明珠,Qwen-VL能用檢測框準确圈出對應建築,這是視覺定位能力。

Qwen-VL是業界首個支援中文開放域定位的通用模型,開放域視覺定位能力決定了大模型“視力”的精準度,也即,能否在畫面中精準地找出想找的事物,這對于VL模型在機器人操控等真實應用場景的落地至關重要。

阿裡雲通義千問再開源!持續推動中國大模型生态建設
阿裡雲通義千問再開源!持續推動中國大模型生态建設

Qwen-VL以Qwen-7B為基座語言模型,在模型架構上引入視覺編碼器,使得模型支援視覺信号輸入,并通過設計訓練過程,讓模型具備對視覺信号的細粒度感覺和了解能力。Qwen-VL支援的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支援224分辨率。在Qwen-VL 的基礎上,通義千問團隊使用對齊機制,打造了基于LLM的視覺AI助手Qwen-VL-Chat,可讓開發者快速搭建具備多模态能力的對話應用。

在四大類多模态任務(Zero-shot Caption/VQA/DocVQA/Grounding)的标準英文測評中,Qwen-VL取得了同等尺寸開源LVLM的最好效果。為了測試模型的多模态對話能力,通義千問團隊建構了一套基于GPT-4打分機制的測試集“試金石”,對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得了開源LVLM最好結果。

8月初,阿裡雲開源通義千問70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat,成為國内首個加入大模型開源行列的大型科技企業。通義千問開源模型剛一上線就廣受關注,當周沖上HuggingFace趨勢榜單,不到一個月在GitHub收獲3400多星,模型累計下載下傳量已突破40萬。

開源位址:

ModelScope魔搭社群:

Qwen-VL https://modelscope.cn/models/qwen/Qwen-VL/summary

Qwen-VL-Chat https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

模型體驗:https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary

HuggingFace:

Qwen-VL https://huggingface.co/Qwen/Qwen-VL

Qwen-VL-Chat https://huggingface.co/Qwen/Qwen-VL-Chat

GitHub:

https://github.com/QwenLM/Qwen-VL

技術論文位址:

https://arxiv.org/abs/2308.12966

繼續閱讀