
摘要
多模态大语言模型(MLLMs)在各类开放性任务中已展现出卓越的指令理解能力。然而,以往方法主要侧重于提升模型的多模态感知能力。本文提出一种通用性强的多模态大语言模型——mPLUG-Owl2,该模型通过有效利用模态间的协同作用,在文本任务与多模态任务中均实现了性能提升。mPLUG-Owl2采用模块化网络架构,其中语言解码器作为统一接口,统筹管理不同模态的信息。具体而言,该模型引入共享功能模块以促进模态间协作,并设计了模态自适应模块,以保留各模态特有的特征信息。大量实验结果表明,mPLUG-Owl2具备在文本任务与多模态任务之间良好泛化的能力,仅通过单一通用模型即可实现当前最优性能。尤为突出的是,mPLUG-Owl2是首个在纯文本场景与多模态场景中均展现出模态协同现象的MLLM模型,为未来多模态基础模型的发展开辟了先河。
代码仓库
x-plug/mplug-owl
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-context-understanding-on-mmneedle | mPLUG-Owl-v2 | 1 Image, 2*2 Stitching, Exact Accuracy: 1.9 1 Image, 4*4 Stitching, Exact Accuracy: 0.3 1 Image, 8*8 Stitching, Exact Accuracy: 0.7 10 Images, 1*1 Stitching, Exact Accuracy: 0.4 10 Images, 2*2 Stitching, Exact Accuracy: 0.1 10 Images, 4*4 Stitching, Exact Accuracy: 0 10 Images, 8*8 Stitching, Exact Accuracy: 0 |
| visual-question-answering-on-mm-vet | mPLUG-Owl2 | GPT-4 score: 36.3±0.1 Params: 7B |
| visual-question-answering-vqa-on-core-mm | mPLUG-Owl2 | Abductive: 20.6 Analogical: 7.64 Deductive: 23.43 Overall score: 20.05 Params: 7B |