3 个月前

VALOR:视觉-音频-语言全感知预训练模型与数据集

VALOR:视觉-音频-语言全感知预训练模型与数据集

摘要

本文提出了一种面向多模态理解与生成的视觉-音频-语言全模态感知预训练模型(Vision-Audio-Language Omni-peRception pretraining model, 简称 VALOR)。与广泛研究的视觉-语言预训练模型不同,VALOR 采用端到端的方式联合建模视觉、音频与语言三者之间的复杂关系。该模型包含三个独立的编码器,用于提取单模态表征,以及一个解码器,用于实现多模态条件下的文本生成。为实现模型预训练,我们设计了两项自监督预训练任务:多模态分组对齐(Multimodal Grouping Alignment, MGA)与多模态分组描述生成(Multimodal Grouping Captioning, MGC)。MGA 将视觉、语言和音频模态映射至统一的共享语义空间,从而同时建立视觉-语言、音频-语言以及视听-语言之间的对齐关系;MGC 则学习在视觉、音频或二者共同条件下的文本标记生成能力。为推动视觉-音频-语言联合预训练研究的发展,我们构建了一个大规模高质量的三模态数据集——VALOR-1M,该数据集包含 100 万条可听视频,并配有由人工标注的视听联合描述。大量实验结果表明,VALOR 能够有效学习强大的多模态关联能力,并在多种下游任务(如跨模态检索、图像/视频描述生成、问答系统)中展现出良好的泛化性能,适用于不同输入模态组合(如视觉-语言、音频-语言、视听-语言)。VALOR 在多个公开的跨模态基准测试中均取得了新的最先进(SOTA)性能。项目代码与数据集已公开,详见项目主页:https://casia-iva-group.github.io/projects/VALOR。

代码仓库

TXH-mercury/VALOR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-captioning-on-audiocapsVALOR
BLEU-4: 0.270
CIDEr: 0.741
METEOR: 0.231
ROUGE-L: 0.494
audio-captioning-on-clothoVALOR
BLEU-4: 16.2
CIDEr: 0.423
METEOR: 17.4
ROUGE-L: 38.2
cross-modal-retrieval-on-coco-2014VALOR
Text-to-image R@1: 61.4
Text-to-image R@10: 90.9
Text-to-image R@5: 84.4
image-captioning-on-coco-captionsVALOR
CIDER: 152.5
SPICE: 25.7
video-captioning-on-msr-vtt-1VALOR
BLEU-4: 54.4
CIDEr: 74.0
METEOR: 32.9
ROUGE-L: 68.0
video-captioning-on-msvd-1VALOR
BLEU-4: 80.7
CIDEr: 178.5
METEOR: 51.0
ROUGE-L: 87.9
video-captioning-on-vatex-1VALOR
BLEU-4: 45.6
CIDEr: 95.8
METEOR: 29.4
ROUGE-L: 57.4
video-question-answering-on-activitynet-qaVALOR
Accuracy: 48.6
video-question-answering-on-msrvtt-qaVALOR
Accuracy: 49.2
video-retrieval-on-activitynetVALOR
text-to-video R@1: 70.1
text-to-video R@10: 95.3
text-to-video R@5: 90.8
video-retrieval-on-didemoVALOR
text-to-video R@1: 61.5
text-to-video R@10: 90.4
text-to-video R@5: 85.3
video-retrieval-on-lsmdcVALOR
text-to-video R@1: 34.2
text-to-video R@10: 64.1
text-to-video R@5: 56.0
video-retrieval-on-msr-vttVALOR
text-to-video R@1: 59.9
text-to-video R@10: 89.6
text-to-video R@5: 83.5
video-retrieval-on-vatexVALOR
text-to-video R@1: 78.5
text-to-video R@10: 98.7
text-to-video R@5: 97.1
visual-question-answering-on-msvd-qa-1VALOR
Accuracy: 0.60
visual-question-answering-on-vqa-v2-test-devVALOR
Accuracy: 78.46
visual-question-answering-on-vqa-v2-test-stdVALOR
overall: 78.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VALOR:视觉-音频-语言全感知预训练模型与数据集 | 论文 | HyperAI超神经