4 个月前

自监督多模态多功能网络

自监督多模态多功能网络

摘要

视频是多模态监督的丰富来源。在本研究中,我们通过利用视频中自然存在的三种模态——视觉流、音频流和语言流,采用自监督方法学习表示。为此,我们引入了多模态通用网络的概念——一种可以接收多种模态输入的网络,其表示能够支持下游任务中的多种模态。具体而言,我们探讨了如何最佳地结合这些模态,以保持视觉和音频模态的细粒度表示,同时将文本整合到一个共同的嵌入空间中。为了增强通用性,我们还引入了一种新颖的消减过程(deflation),使得网络可以轻松应用于视频或静态图像形式的视觉数据。我们展示了如何将这些在大量未标记视频数据上训练的网络应用于视频、视频-文本、图像和音频任务。借助这些表示,我们在多个具有挑战性的基准测试中取得了最先进的性能,包括UCF101、HMDB51、Kinetics600、AudioSet和ESC-50,相较于以往的自监督工作。我们的模型已公开发布。

基准测试

基准方法指标
audio-classification-on-audiosetMMV
Test mAP: 0.309
self-supervised-action-recognition-onMMV
Top-1 Accuracy: 55.5
self-supervised-action-recognition-on-hmdb51-1MMV
Top-1 Accuracy: 70.1
self-supervised-action-recognition-on-ucf101MMV TSM-50x2
3-fold Accuracy: 95.2
Frozen: false
Pre-Training Dataset: Audioset + Howto100M
self-supervised-action-recognition-on-ucf101-1MMV
3-fold Accuracy: 91.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督多模态多功能网络 | 论文 | HyperAI超神经