3 个月前

VATT:用于从原始视频、音频和文本中进行多模态自监督学习的Transformer

VATT:用于从原始视频、音频和文本中进行多模态自监督学习的Transformer

摘要

我们提出了一种基于无标签数据学习多模态表示的框架,采用无需卷积的Transformer架构。具体而言,我们的视频-音频-文本Transformer(Video-Audio-Text Transformer, VATT)以原始信号作为输入,提取出足够丰富的多模态表示,可有效支持多种下游任务。我们通过多模态对比损失,从零开始端到端训练VATT,并在视频动作识别、音频事件分类、图像分类以及文本到视频检索等下游任务上评估其性能。此外,我们还研究了一种模态无关的单骨干Transformer结构,通过在三种模态之间共享参数来实现模型统一。实验结果表明,无需卷积的VATT在各项下游任务中均优于当前最先进的基于卷积神经网络(ConvNet)的架构。特别地,VATT的视觉Transformer在Kinetics-400上取得了82.1%的Top-1准确率,在Kinetics-600上达到83.6%,在Kinetics-700上达到72.7%,在Moments in Time上达到41.1%,均创下新纪录,且无需任何监督预训练。在图像分类任务中,VATT迁移至ImageNet后获得78.7%的Top-1准确率,显著高于仅从零训练相同Transformer所获得的64.7%,充分体现了模型在存在领域差异(视频与图像)下的强大泛化能力。此外,VATT的音频Transformer在基于波形的音频事件识别任务中,于AudioSet数据集上实现了39.4%的mAP,同样创下新纪录,且未依赖任何监督预训练。VATT的源代码已公开发布。

基准测试

基准方法指标
action-classification-on-kinetics-400VATT-Large
Acc@1: 82.1
Acc@5: 95.5
action-classification-on-kinetics-600VATT-Large
Top-1 Accuracy: 83.6
Top-5 Accuracy: 96.6
action-classification-on-moments-in-timeVATT-Large
Top 1 Accuracy: 41.1
Top 5 Accuracy: 67.7
audio-classification-on-audiosetVATT-Base
AUC: 0.971
Test mAP: 0.394
d-prime: 2.895
zero-shot-video-retrieval-on-msr-vttVATT-MBS
text-to-video Median Rank: 49
text-to-video R@10: 29.7
zero-shot-video-retrieval-on-youcook2VATT-MBS
text-to-video Mean Rank: 13
text-to-video R@10: 45.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VATT:用于从原始视频、音频和文本中进行多模态自监督学习的Transformer | 论文 | HyperAI超神经