
摘要
我们提出了一种基于无标签数据学习多模态表示的框架,采用无需卷积的Transformer架构。具体而言,我们的视频-音频-文本Transformer(Video-Audio-Text Transformer, VATT)以原始信号作为输入,提取出足够丰富的多模态表示,可有效支持多种下游任务。我们通过多模态对比损失,从零开始端到端训练VATT,并在视频动作识别、音频事件分类、图像分类以及文本到视频检索等下游任务上评估其性能。此外,我们还研究了一种模态无关的单骨干Transformer结构,通过在三种模态之间共享参数来实现模型统一。实验结果表明,无需卷积的VATT在各项下游任务中均优于当前最先进的基于卷积神经网络(ConvNet)的架构。特别地,VATT的视觉Transformer在Kinetics-400上取得了82.1%的Top-1准确率,在Kinetics-600上达到83.6%,在Kinetics-700上达到72.7%,在Moments in Time上达到41.1%,均创下新纪录,且无需任何监督预训练。在图像分类任务中,VATT迁移至ImageNet后获得78.7%的Top-1准确率,显著高于仅从零训练相同Transformer所获得的64.7%,充分体现了模型在存在领域差异(视频与图像)下的强大泛化能力。此外,VATT的音频Transformer在基于波形的音频事件识别任务中,于AudioSet数据集上实现了39.4%的mAP,同样创下新纪录,且未依赖任何监督预训练。VATT的源代码已公开发布。
代码仓库
MindCode-4/code-13/tree/main/vat
mindspore
MindCode-4/code-9/tree/main/vat
mindspore
akashe/ProgrammingInterview
pytorch
GitHub 中提及
pwc-1/Paper-9/tree/main/3/vat
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | VATT-Large | Acc@1: 82.1 Acc@5: 95.5 |
| action-classification-on-kinetics-600 | VATT-Large | Top-1 Accuracy: 83.6 Top-5 Accuracy: 96.6 |
| action-classification-on-moments-in-time | VATT-Large | Top 1 Accuracy: 41.1 Top 5 Accuracy: 67.7 |
| audio-classification-on-audioset | VATT-Base | AUC: 0.971 Test mAP: 0.394 d-prime: 2.895 |
| zero-shot-video-retrieval-on-msr-vtt | VATT-MBS | text-to-video Median Rank: 49 text-to-video R@10: 29.7 |
| zero-shot-video-retrieval-on-youcook2 | VATT-MBS | text-to-video Mean Rank: 13 text-to-video R@10: 45.5 |