Weicheng KuoAJ PiergiovanniDahun KimXiyang LuoBen CaineWei LiAbhijit OgaleLuowei ZhouAndrew DaiZhifeng ChenClaire CuiAnelia Angelova

摘要
语言模型的发展已从编码器-解码器架构演进为仅使用解码器的架构。此外,我们观察到当前两种最主流的多模态任务——生成式任务与对比式任务——难以在单一架构中有效融合,且在下游任务中还需进行额外调整。为此,我们提出一种基于仅解码器模型的新型训练范式,用于多模态任务,该方法在联合学习这些异构的视觉-语言任务方面表现出令人惊讶的有效性。这一目标通过一个简洁的模型——MaMMUT 实现。该模型仅包含一个视觉编码器和一个文本解码器,并通过在文本解码器上引入一种新颖的两阶段处理机制,实现了对比学习与生成学习的统一。我们证明,对这些多样化目标进行联合学习不仅简单高效,还能最大程度地实现模型参数在不同任务间的共享。此外,该统一架构可轻松扩展至开放词汇目标检测与视频-语言任务。该模型在保持相对较小规模的前提下,能够应对多样化的任务。在图像-文本检索、文本-图像检索、视频问答以及开放词汇目标检测等任务上,MaMMUT 达到了当前最优性能,超越了许多参数量更大、训练更充分的基础模型。在视觉问答(VQA)和视频字幕生成任务上,其表现也极具竞争力,尤其考虑到其模型容量之小。消融实验进一步验证了该方法的灵活性与优越性。
代码仓库
lucidrains/mammut-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | MaMMUT (ours) | Image-to-text R@1: 70.7 Image-to-text R@10: 93.7 Image-to-text R@5: 89.1 |
| image-retrieval-on-flickr30k | MaMMUT (ours) | Image-to-text R@1: 94.9 Image-to-text R@10: 99.9 Image-to-text R@5: 99.5 Recall@1: 82.5 Recall@10: 98 Recall@5: 96 |
| question-answering-on-coco-visual-question | MaMMUT (2B) | Test: 80.8 |
| video-captioning-on-msr-vtt-1 | MaMMUT (ours) | CIDEr: 73.6 |
| video-captioning-on-msvd-1 | MaMMUT | CIDEr: 195.6 |
| visual-question-answering-on-coco-visual-5 | MaMMUT (2B) | Percentage correct: 80.7 |
| visual-question-answering-on-msrvtt-qa-1 | MaMMUT | Accuracy: 0.495 |
| visual-question-answering-on-msvd-qa-1 | MaMMUT (ours) | Accuracy: .602 |