
摘要
视频是多模态监督的丰富来源。在本研究中,我们通过利用视频中自然存在的三种模态——视觉流、音频流和语言流,采用自监督方法学习表示。为此,我们引入了多模态通用网络的概念——一种可以接收多种模态输入的网络,其表示能够支持下游任务中的多种模态。具体而言,我们探讨了如何最佳地结合这些模态,以保持视觉和音频模态的细粒度表示,同时将文本整合到一个共同的嵌入空间中。为了增强通用性,我们还引入了一种新颖的消减过程(deflation),使得网络可以轻松应用于视频或静态图像形式的视觉数据。我们展示了如何将这些在大量未标记视频数据上训练的网络应用于视频、视频-文本、图像和音频任务。借助这些表示,我们在多个具有挑战性的基准测试中取得了最先进的性能,包括UCF101、HMDB51、Kinetics600、AudioSet和ESC-50,相较于以往的自监督工作。我们的模型已公开发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | MMV | Test mAP: 0.309 |
| self-supervised-action-recognition-on | MMV | Top-1 Accuracy: 55.5 |
| self-supervised-action-recognition-on-hmdb51-1 | MMV | Top-1 Accuracy: 70.1 |
| self-supervised-action-recognition-on-ucf101 | MMV TSM-50x2 | 3-fold Accuracy: 95.2 Frozen: false Pre-Training Dataset: Audioset + Howto100M |
| self-supervised-action-recognition-on-ucf101-1 | MMV | 3-fold Accuracy: 91.5 |