天天看點

十二大模型,十六份榜單,全面測評“多模态大語言模型”

作者:新智元

編輯:LRS

【新智元導讀】在私域資料、感覺能力、簡潔指令、定量統計方面比拼多模态大語言模型。

多模态大語言模型(Multimodal Large Language Model,MLLM)依賴于LLM豐富的知識儲備以及強大的推理和泛化能力來解決多模态問題,目前已經湧現出一些令人驚歎的能力,比如看圖寫作和看圖寫代碼。

但僅根據這些樣例很難充分反映MLLM的性能,目前仍然缺乏對MLLM的全面評測。

為此,騰訊優圖實驗室聯合廈門大學在建立的評測基準MM上首次對現有12種開源MLLM模型進行了全面定量評測并公布了16個排行榜,包含感覺和認知兩個總榜以及14個子榜單:

十二大模型,十六份榜單,全面測評“多模态大語言模型”

論文連結:https://arxiv.org/pdf/2306.13394.pdf

項目連結:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

現有MLLM的定量評測方法主要分為三類,但都存在一定的局限導緻難以全面反映其性能。

第一類方法在傳統的公開資料集上進行評測,例如圖像描述(Image Caption)和視覺問答(VQA)資料集。

但一方面這些傳統資料集可能難以反映MLLM湧現的新能力,另一方面由于大模型時代的訓練集都不再統一,是以難以保證這些評測資料集沒有被其他MLLM訓練過。

第二種方式是收集新的資料進行開放式評測,但這些資料要麼未公開[1],要麼數量太少(僅有50張)[2]。

第三種方式聚焦于MLLM的某個特定方面,比如物體幻覺(Object Hallucination)[3]或者對抗魯棒性[4],無法做全面評測。

目前亟需一個全面的評測基準來比對MLLM的快速發展。研究人員認為一個通用的全面評測基準應該具有以下特點:

(1)應該覆寫盡可能多的範圍,包括感覺和認知能力。前者指的是識别物體,包括其存在性、數量、位置和顔色等。後者指的是綜合感覺資訊以及LLM中的知識來進行更複雜的推理。其中前者是後者的基礎。

(2)資料或者标注應該盡可能避免采用已有的公開資料集,以減少資料洩露的風險。

(3)指令應該盡可能簡潔并且符合人類的認知習慣。不同的指令設計可能會極大影響模型的輸出,但所有的模型都在統一的簡潔指令下進行評測可以保證公平性。一個好的MLLM模型應該具備泛化到這種簡潔指令上的能力,避免陷入Prompt Engineering。

(4)MLLM在該簡潔指令下的輸出應該是直覺的并且便于定量統計。MLLM開放式的回答給量化統計提出了很大挑戰。現有方法傾向于使用GPT或者人工打分,但可能面臨着不準确和主觀性的問題。

十二大模型,十六份榜單,全面測評“多模态大語言模型”

圖1. MME評測基準示例。每張圖檔對應兩個問題,答案分别為Yes[Y]和No[N]。問題加上「Please answer yes or no」共同構成指令。

基于以上原因,一個新的MLLM評測基準MME被建構出來,它同時具備以上四個特點:

1. MME同時評測感覺和認知能力。除了OCR外,感覺能力還包括粗粒度和細粒度目辨別别。前者識别物體的存在性、數量、位置和顔色。後者識别電影海報、名人、場景、地标和藝術品。認知能力包括常識推理、數值計算、文本翻譯和代碼推理。總的子任務數達到14種,如圖1所示。

2. MME中所有的指令-答案對都是人工建構的。對于少量使用到的公開資料集,僅使用其圖像而沒有依賴其原始标注。同時,研究人員也盡力通過人工拍攝和圖像生成的方式來采集資料。

3. MME的指令被設計得盡量簡潔以避免Prompt Engineering對模型輸出的影響。研究人員再次申明一個好的MLLM應該泛化到這種簡潔且使用頻繁的指令,這對所有模型都是公平的。圖1中顯示了每個子任務的指令。

4. 得益于指令設計「Please answer yes or no」,可以友善地根據模型輸出的「Yes」或「No」進行定量統計,這種方式可以同時保證準确性和客觀性。值得注意的是,研究人員也嘗試過設計選擇題的指令,但發現目前的MLLM還難以跟随這類較為複雜的指令。

研究人員一共評測了12種先進的MLLM模型,包括BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、 mPLUG-Owl [2]、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、 VisualGLM-6B [12], PandaGPT [13], ImageBind-LLM [14] 和 LaVIN [15]。

其中,統計名額有三種,包括Accuracy,Accuracy+和Score。其中對于每個任務,Accuracy是基于問題統計而來,Accuracy+是基于圖檔統計而來(圖檔對應的兩個問題都需要回答正确),Score是Accuracy和Accuracy+的和。

感覺的總分為10種感覺類子任務Score的總和,認知的總分是4種認知類任務Score的總和。具體詳見項目連結。

12種模型在14種子任務上的測試比較如圖2所示:

十二大模型,十六份榜單,全面測評“多模态大語言模型”

圖2. 12種模型在14種子任務上的比較。每種子任務的滿分為200分。

一共16個榜單,包括感覺類和認知類的總榜單以及14個子任務的榜單也已釋出。兩個總榜單分别如圖3和圖4所示,值得注意的是BLIP-2和InstructBLIP在這兩個榜單中都保持在前三。

十二大模型,十六份榜單,全面測評“多模态大語言模型”

圖3.感覺類任務總榜單

十二大模型,十六份榜單,全面測評“多模态大語言模型”

圖4.認知類任務總榜單

十二大模型,十六份榜單,全面測評“多模态大語言模型”

圖5.所有榜單

另外研究人員也總結了MLLM模型在實驗中暴露的一些通用問題,如圖6所示,希望可以為後續的模型優化提供指導。

十二大模型,十六份榜單,全面測評“多模态大語言模型”

圖6. MLLM暴露的通用問題。[Y]/[N]表示真實的答案是Yes/No。[R]是MLLM生成的答案。

第一個問題是不跟随指令。

盡管已經采用了非常簡潔的指令設計,但仍然有MLLM自由回答問題而不是跟随指令。

如圖6中的第一行所示,指令已經申明「Please answer yes or no」,但MLLM僅給出了一個陳述性回答。如果在回答的開頭沒有出現「Yes」或者「No」,都判定該回答錯誤。一個好的MLLM,尤其是經過指令微調後,應該能夠泛化到這種簡單的指令上。

第二個問題是缺乏感覺能力。

如圖6中的第二行所示,MLLM錯誤地識别了第一張圖檔中香蕉的數量和第二張圖檔中的數字,導緻回答錯誤。研究人員也注意到感覺的性能很容易受到指令變化的影響,因為同一張圖的兩個指令隻相差一個單詞,但導緻了完全不同的感覺結果。

第三個問題是缺乏推理能力。

如圖6中的第三行所示,從紅色的文字可以看出MLLM已經知道了第一張圖檔不是一個辦公場所,但仍然給出了一個錯誤的回答「Yes」。

相似地,在第二張圖檔中,MLLM已經計算得到了正确的算數結果,但最終也給出了錯誤的答案。添加思維鍊Prompt,例如「Let’s think step by step」也許能帶來更好的效果。期待這方面有更深入的研究。

第四個問題跟随指令的物體幻視。如圖6中的第四行所示,當指令中含有圖檔中不存在的物體時,MLLM将會幻想該物體存在并最終給出一個「Yes」的回答。

這種總是回答「Yes」的方式導緻了Accuracy接近于50%,Accuracy+接近于0。這表明抑制目标幻視的重要性,并且也需要進一步思考MLLM生成的答案的可靠性。

參考資料:

[1] Zijia Zhao, Longteng Guo, Tongtian Yue, Sihan Chen, Shuai Shao, Xinxin Zhu, Zehuan Yuan, and Jing Liu. Chatbridge: Bridging modalities with large language model as a language catalyst. arXiv preprint:2305.16103, 2023.

[2] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint:2304.14178, 2023.

[3] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. arXiv preprint:2305.10355, 2023.

[4] Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Chongxuan Li, Ngai-Man Cheung, and Min Lin. On evaluating adversarial robustness of large vision-language models. arXiv preprint:2305.16934, 2023.

[5] Junnan Li, DongxuLi, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. arXiv preprint:2301.12597, 2023.

[6] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint:2304.08485, 2023.

[7] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint:2304.10592, 2023.

[8] Peng Gao, Jiaming Han, Renrui Zhang, Ziyi Lin, Shijie Geng, Aojun Zhou, Wei Zhang, Pan Lu, Con- ghui He, Xiangyu Yue, et al. Llama-adapter v2: Parameter-efficient visual instruction model. arXiv preprint:2304.15010, 2023.

[9] Bo Li,Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang,and ZiweiLiu. Otter: Amulti-modal model with in-context instruction tuning. arXiv preprint:2305.03726, 2023.

[10] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang,Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, and Kai Chen. Multimodal-gpt: A vision and language model for dialogue with humans. arXiv preprint:2305.04790, 2023.

[11] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose vision-language models with instruction tuning. arXiv preprint:2305.06500, 2023.

[12] Visualglm-6b. https://github.com/THUDM/VisualGLM-6B, 2023.

[13] Yixuan Su, Tian Lan, Huayang Li, Jialu Xu, Yan Wang, and Deng Cai. Pandagpt: One model to instruction-follow them all. arXiv preprint:2305.16355, 2023.

[14] Imagebind-llm. https://github.com/OpenGVLab/LLaMA-Adapter/tree/main/imagebind_LLM, 2023.

[15] Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, and Rongrong Ji. Cheap and quick: Efficient vision-language instruction tuning for large language models. arXiv preprint:2305.15023, 2023

繼續閱讀