
摘要
我们能否利用视频中已有的音视频信息来提升自监督表示学习的效果?为回答这一问题,我们基于掩码自编码(masked autoencoding)框架,研究了多种预训练架构与目标,其灵感来源于自然语言和图像理解领域类似方法的成功实践。实验结果表明,我们在音视频下游分类任务上取得了显著提升,在VGGSound和AudioSet数据集上均超越了现有最先进水平。此外,我们仅需使用一个音视频联合预训练模型,即可有效支持多种单模态下游任务。同时,我们还验证了所学表示的可迁移性,在Epic Kitchens数据集上实现了音视频任务的最先进性能,且无需针对该数据集进行专门的预训练。
代码仓库
google-research/scenic
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | Audiovisual Masked Autoencoder (Audio-only, Single) | Test mAP: 0.466 |
| audio-classification-on-audioset | Audiovisual Masked Autoencoder (Audiovisual, Single) | Test mAP: 0.518 |
| audio-classification-on-epic-kitchens-100 | Audiovisual Masked Autoencoder (Video-only, Single) | Top-1 Action: 45.8 Top-1 Noun: 55.9 Top-1 Verb: 70.8 |
| audio-classification-on-epic-kitchens-100 | Audiovisual Masked Autoencoder (Audiovisual, Single) | Top-1 Action: 46.0 Top-1 Noun: 56.4 Top-1 Verb: 71.4 |
| audio-classification-on-epic-kitchens-100 | Audiovisual Masked Autoencoder (Audio-only, Single) | Top-1 Action: 19.7 Top-1 Noun: 27.2 Top-1 Verb: 52.7 |
| audio-classification-on-vggsound | Audiovisual Masked Autoencoder (Audio-only, Single) | Top 1 Accuracy: 57.2 |
| audio-classification-on-vggsound | Audiovisual Masked Autoencoder (Audiovisual, Single) | Top 1 Accuracy: 65.0 |