3 个月前

mPLUG-Owl2:通过模态协作革新多模态大语言模型

mPLUG-Owl2:通过模态协作革新多模态大语言模型

摘要

多模态大语言模型(MLLMs)在各类开放性任务中已展现出卓越的指令理解能力。然而,以往方法主要侧重于提升模型的多模态感知能力。本文提出一种通用性强的多模态大语言模型——mPLUG-Owl2,该模型通过有效利用模态间的协同作用,在文本任务与多模态任务中均实现了性能提升。mPLUG-Owl2采用模块化网络架构,其中语言解码器作为统一接口,统筹管理不同模态的信息。具体而言,该模型引入共享功能模块以促进模态间协作,并设计了模态自适应模块,以保留各模态特有的特征信息。大量实验结果表明,mPLUG-Owl2具备在文本任务与多模态任务之间良好泛化的能力,仅通过单一通用模型即可实现当前最优性能。尤为突出的是,mPLUG-Owl2是首个在纯文本场景与多模态场景中均展现出模态协同现象的MLLM模型,为未来多模态基础模型的发展开辟了先河。

代码仓库

基准测试

基准方法指标
long-context-understanding-on-mmneedlemPLUG-Owl-v2
1 Image, 2*2 Stitching, Exact Accuracy: 1.9
1 Image, 4*4 Stitching, Exact Accuracy: 0.3
1 Image, 8*8 Stitching, Exact Accuracy: 0.7
10 Images, 1*1 Stitching, Exact Accuracy: 0.4
10 Images, 2*2 Stitching, Exact Accuracy: 0.1
10 Images, 4*4 Stitching, Exact Accuracy: 0
10 Images, 8*8 Stitching, Exact Accuracy: 0
visual-question-answering-on-mm-vetmPLUG-Owl2
GPT-4 score: 36.3±0.1
Params: 7B
visual-question-answering-vqa-on-core-mmmPLUG-Owl2
Abductive: 20.6
Analogical: 7.64
Deductive: 23.43
Overall score: 20.05
Params: 7B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
mPLUG-Owl2:通过模态协作革新多模态大语言模型 | 论文 | HyperAI超神经