HyperAIHyperAI

Command Palette

Search for a command to run...

视听掩码自编码器

Mariana-Iuliana Georgescu Eduardo Fonseca Radu Tudor Ionescu Mario Lucic Cordelia Schmid Anurag Arnab

摘要

我们能否利用视频中已有的音视频信息来提升自监督表示学习的效果?为回答这一问题,我们基于掩码自编码(masked autoencoding)框架,研究了多种预训练架构与目标,其灵感来源于自然语言和图像理解领域类似方法的成功实践。实验结果表明,我们在音视频下游分类任务上取得了显著提升,在VGGSound和AudioSet数据集上均超越了现有最先进水平。此外,我们仅需使用一个音视频联合预训练模型,即可有效支持多种单模态下游任务。同时,我们还验证了所学表示的可迁移性,在Epic Kitchens数据集上实现了音视频任务的最先进性能,且无需针对该数据集进行专门的预训练。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视听掩码自编码器 | 论文 | HyperAI超神经