
摘要
本文提出了一种面向多模态理解与生成的视觉-音频-语言全模态感知预训练模型(Vision-Audio-Language Omni-peRception pretraining model, 简称 VALOR)。与广泛研究的视觉-语言预训练模型不同,VALOR 采用端到端的方式联合建模视觉、音频与语言三者之间的复杂关系。该模型包含三个独立的编码器,用于提取单模态表征,以及一个解码器,用于实现多模态条件下的文本生成。为实现模型预训练,我们设计了两项自监督预训练任务:多模态分组对齐(Multimodal Grouping Alignment, MGA)与多模态分组描述生成(Multimodal Grouping Captioning, MGC)。MGA 将视觉、语言和音频模态映射至统一的共享语义空间,从而同时建立视觉-语言、音频-语言以及视听-语言之间的对齐关系;MGC 则学习在视觉、音频或二者共同条件下的文本标记生成能力。为推动视觉-音频-语言联合预训练研究的发展,我们构建了一个大规模高质量的三模态数据集——VALOR-1M,该数据集包含 100 万条可听视频,并配有由人工标注的视听联合描述。大量实验结果表明,VALOR 能够有效学习强大的多模态关联能力,并在多种下游任务(如跨模态检索、图像/视频描述生成、问答系统)中展现出良好的泛化性能,适用于不同输入模态组合(如视觉-语言、音频-语言、视听-语言)。VALOR 在多个公开的跨模态基准测试中均取得了新的最先进(SOTA)性能。项目代码与数据集已公开,详见项目主页:https://casia-iva-group.github.io/projects/VALOR。
代码仓库
TXH-mercury/VALOR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-captioning-on-audiocaps | VALOR | BLEU-4: 0.270 CIDEr: 0.741 METEOR: 0.231 ROUGE-L: 0.494 |
| audio-captioning-on-clotho | VALOR | BLEU-4: 16.2 CIDEr: 0.423 METEOR: 17.4 ROUGE-L: 38.2 |
| cross-modal-retrieval-on-coco-2014 | VALOR | Text-to-image R@1: 61.4 Text-to-image R@10: 90.9 Text-to-image R@5: 84.4 |
| image-captioning-on-coco-captions | VALOR | CIDER: 152.5 SPICE: 25.7 |
| video-captioning-on-msr-vtt-1 | VALOR | BLEU-4: 54.4 CIDEr: 74.0 METEOR: 32.9 ROUGE-L: 68.0 |
| video-captioning-on-msvd-1 | VALOR | BLEU-4: 80.7 CIDEr: 178.5 METEOR: 51.0 ROUGE-L: 87.9 |
| video-captioning-on-vatex-1 | VALOR | BLEU-4: 45.6 CIDEr: 95.8 METEOR: 29.4 ROUGE-L: 57.4 |
| video-question-answering-on-activitynet-qa | VALOR | Accuracy: 48.6 |
| video-question-answering-on-msrvtt-qa | VALOR | Accuracy: 49.2 |
| video-retrieval-on-activitynet | VALOR | text-to-video R@1: 70.1 text-to-video R@10: 95.3 text-to-video R@5: 90.8 |
| video-retrieval-on-didemo | VALOR | text-to-video R@1: 61.5 text-to-video R@10: 90.4 text-to-video R@5: 85.3 |
| video-retrieval-on-lsmdc | VALOR | text-to-video R@1: 34.2 text-to-video R@10: 64.1 text-to-video R@5: 56.0 |
| video-retrieval-on-msr-vtt | VALOR | text-to-video R@1: 59.9 text-to-video R@10: 89.6 text-to-video R@5: 83.5 |
| video-retrieval-on-vatex | VALOR | text-to-video R@1: 78.5 text-to-video R@10: 98.7 text-to-video R@5: 97.1 |
| visual-question-answering-on-msvd-qa-1 | VALOR | Accuracy: 0.60 |
| visual-question-answering-on-vqa-v2-test-dev | VALOR | Accuracy: 78.46 |
| visual-question-answering-on-vqa-v2-test-std | VALOR | overall: 78.62 |