PandaGPT:新一代跨模态AGI智能正式来袭!
→→→→→#未来科技社# →→→→→
近日,来自剑桥、NAIST和腾讯AI Lab的研究者推出一款名为PandaGPT的跨模态语言模型,具有在人工智能领域的创新尝试。这项技术结合了ImageBind的模态对齐能力和Vicuna的生成能力,可以处理六种模态下的指令理解与跟随能力。虽然PandaGPT的效果还有提升空间,但是,它展示了跨模态AGI智能的发展潜力。
PandaGPT通过将ImageBind的多模态编码器与Vicuna大型语言模型结合使用,实现了六种模态下的指令跟随能力。它可以同时接收多模态输入,并自然地组合它们的语义。PandaGPT结合了多模态信号处理和自然语言处理的技术,可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。
在训练过程中,PandaGPT使用了共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。PandaGPT只更新了ImageBind编码结果上新增的线性投影矩阵以及Vicuna的注意力模块上添加的额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。
在实验中,PandaGPT展示了对不同模态的理解能力。与其他的多模态语言模型相比,PandaGPT最突出的特点在于,它能够理解并将不同模态的信息自然地组合在一起。
虽然PandaGPT在处理多种模态及其组合方面具有惊人的能力,但是,当处理其他模态信息时,存在一些问题需要解决,例如,维护对其余模态的细粒度信息量等。因此,为了提高性能,PandaGPT未来的发展方向需要跨模态注意力机制等细粒度特征提取的研究,并需要新的基准测试来评估多模态输入的组合能力,同时,也需要在生产环境之前进行进一步完善。
→→→→→#未来科技社# →→→→→
图释:图一,PandaGPT能理解图片内容。图二,视频理解。图三,视频+音频。图四,图片+音频。原文是英文,请忽视我的翻译水平[狗头]