3 个月前

mPLUG-Owl3:面向多模态大语言模型中的长图像序列理解

mPLUG-Owl3:面向多模态大语言模型中的长图像序列理解

摘要

多模态大语言模型(MLLMs)在执行各类单图像任务指令方面已展现出卓越能力。尽管取得了显著进展,但在建模长图像序列方面仍面临重大挑战。本文提出了一种通用性强的多模态大语言模型——mPLUG-Owl3,该模型显著提升了在包含检索图像-文本知识、交错图像-文本内容以及长视频场景下的长图像序列理解能力。具体而言,我们设计了新颖的超注意力(hyper attention)模块,能够高效地将视觉与语言信息融合至一个由语言引导的统一语义空间中,从而有效支持复杂多图像场景的处理。大量实验结果表明,mPLUG-Owl3在与同类规模模型相比的单图像、多图像及视频基准测试中均达到了当前最优性能。此外,我们提出了一个具有挑战性的长视觉序列评估任务——“干扰抵抗性测试”(Distractor Resistance),用以衡量模型在复杂干扰环境下保持注意力集中的能力。最终,基于所提出的架构,mPLUG-Owl3在超长视觉序列输入任务上表现出色。我们期望mPLUG-Owl3能为构建更高效、更强大的多模态大语言模型提供有力支持。

代码仓库

x-plug/mplug-owl
官方
pytorch

基准测试

基准方法指标
video-question-answering-on-mvbenchmPLUG-Owl3(7B)
Avg.: 59.5
video-question-answering-on-next-qamPLUG-Owl3(8B)
Accuracy: 78.6
video-question-answering-on-tvbenchmPLUG-Owl3
Average Accuracy: 42.2
visual-question-answering-on-mm-vetmPLUG-Owl3
GPT-4 score: 40.1
visual-question-answering-vqa-on-vlm2-benchmPLUG-Owl3-7B
Average Score on VLM2-bench (9 subtasks): 37.85
GC-mat: 17.37
GC-trk: 18.26
OC-cnt: 62.97
OC-cpr: 49.17
OC-grp: 31.00
PC-VID: 13.50
PC-cnt: 58.86
PC-cpr: 63.50
PC-grp: 26.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
mPLUG-Owl3:面向多模态大语言模型中的长图像序列理解 | 论文 | HyperAI超神经