3 个月前

MaMMUT:一种用于多模态任务联合学习的简单架构

MaMMUT:一种用于多模态任务联合学习的简单架构

摘要

语言模型的发展已从编码器-解码器架构演进为仅使用解码器的架构。此外,我们观察到当前两种最主流的多模态任务——生成式任务与对比式任务——难以在单一架构中有效融合,且在下游任务中还需进行额外调整。为此,我们提出一种基于仅解码器模型的新型训练范式,用于多模态任务,该方法在联合学习这些异构的视觉-语言任务方面表现出令人惊讶的有效性。这一目标通过一个简洁的模型——MaMMUT 实现。该模型仅包含一个视觉编码器和一个文本解码器,并通过在文本解码器上引入一种新颖的两阶段处理机制,实现了对比学习与生成学习的统一。我们证明,对这些多样化目标进行联合学习不仅简单高效,还能最大程度地实现模型参数在不同任务间的共享。此外,该统一架构可轻松扩展至开放词汇目标检测与视频-语言任务。该模型在保持相对较小规模的前提下,能够应对多样化的任务。在图像-文本检索、文本-图像检索、视频问答以及开放词汇目标检测等任务上,MaMMUT 达到了当前最优性能,超越了许多参数量更大、训练更充分的基础模型。在视觉问答(VQA)和视频字幕生成任务上,其表现也极具竞争力,尤其考虑到其模型容量之小。消融实验进一步验证了该方法的灵活性与优越性。

代码仓库

lucidrains/mammut-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014MaMMUT (ours)
Image-to-text R@1: 70.7
Image-to-text R@10: 93.7
Image-to-text R@5: 89.1
image-retrieval-on-flickr30kMaMMUT (ours)
Image-to-text R@1: 94.9
Image-to-text R@10: 99.9
Image-to-text R@5: 99.5
Recall@1: 82.5
Recall@10: 98
Recall@5: 96
question-answering-on-coco-visual-questionMaMMUT (2B)
Test: 80.8
video-captioning-on-msr-vtt-1MaMMUT (ours)
CIDEr: 73.6
video-captioning-on-msvd-1MaMMUT
CIDEr: 195.6
visual-question-answering-on-coco-visual-5MaMMUT (2B)
Percentage correct: 80.7
visual-question-answering-on-msrvtt-qa-1MaMMUT
Accuracy: 0.495
visual-question-answering-on-msvd-qa-1MaMMUT (ours)
Accuracy: .602

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MaMMUT:一种用于多模态任务联合学习的简单架构 | 论文 | HyperAI超神经