Command Palette
Search for a command to run...
mPLUG-2:一种跨文本、图像与视频的模块化多模态基础模型
mPLUG-2:一种跨文本、图像与视频的模块化多模态基础模型
摘要
近年来,语言、视觉与多模态预训练领域呈现出显著的融合趋势。本文提出了一种全新的统一范式——mPLUG-2,其采用模块化设计,旨在促进模态间的协同作用,同时有效缓解模态纠缠问题。与当前主流方法(仅依赖序列到序列生成或基于编码器的实例判别)不同,mPLUG-2引入了一种多模块组合网络架构:通过共享通用的通用模块实现模态间的协同,同时将不同模态的模块进行解耦,以应对模态纠缠挑战。该架构具有高度灵活性,可根据不同模态(包括文本、图像和视频)下的理解与生成任务,自由选择适配的模块。实证研究表明,mPLUG-2在超过30项下游任务中取得了当前最优或具有竞争力的性能表现,涵盖图像-文本、视频-文本等多模态理解与生成任务,以及纯文本、纯图像和纯视频等单模态理解任务。尤为突出的是,在具有挑战性的MSRVTT视频问答与视频字幕任务上,mPLUG-2以远小于现有模型的参数规模和数据量,实现了48.0的Top-1准确率和80.3的CIDEr得分,刷新了该任务的最新纪录。此外,该模型在视觉-语言与视频-语言任务中展现出强大的零样本迁移能力。相关代码与模型将开源发布于:https://github.com/alibaba/AliceMind。