
摘要
多模态大语言模型(MLLMs)在执行各类单图像任务指令方面已展现出卓越能力。尽管取得了显著进展,但在建模长图像序列方面仍面临重大挑战。本文提出了一种通用性强的多模态大语言模型——mPLUG-Owl3,该模型显著提升了在包含检索图像-文本知识、交错图像-文本内容以及长视频场景下的长图像序列理解能力。具体而言,我们设计了新颖的超注意力(hyper attention)模块,能够高效地将视觉与语言信息融合至一个由语言引导的统一语义空间中,从而有效支持复杂多图像场景的处理。大量实验结果表明,mPLUG-Owl3在与同类规模模型相比的单图像、多图像及视频基准测试中均达到了当前最优性能。此外,我们提出了一个具有挑战性的长视觉序列评估任务——“干扰抵抗性测试”(Distractor Resistance),用以衡量模型在复杂干扰环境下保持注意力集中的能力。最终,基于所提出的架构,mPLUG-Owl3在超长视觉序列输入任务上表现出色。我们期望mPLUG-Owl3能为构建更高效、更强大的多模态大语言模型提供有力支持。
代码仓库
x-plug/mplug-owl
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-mvbench | mPLUG-Owl3(7B) | Avg.: 59.5 |
| video-question-answering-on-next-qa | mPLUG-Owl3(8B) | Accuracy: 78.6 |
| video-question-answering-on-tvbench | mPLUG-Owl3 | Average Accuracy: 42.2 |
| visual-question-answering-on-mm-vet | mPLUG-Owl3 | GPT-4 score: 40.1 |
| visual-question-answering-vqa-on-vlm2-bench | mPLUG-Owl3-7B | Average Score on VLM2-bench (9 subtasks): 37.85 GC-mat: 17.37 GC-trk: 18.26 OC-cnt: 62.97 OC-cpr: 49.17 OC-grp: 31.00 PC-VID: 13.50 PC-cnt: 58.86 PC-cpr: 63.50 PC-grp: 26.00 |