3 个月前

ViC-MAE:基于对比掩码自编码器的图像与视频自监督表征学习

ViC-MAE:基于对比掩码自编码器的图像与视频自监督表征学习

摘要

我们提出ViC-MAE,一种融合掩码自编码器(Masked AutoEncoders, MAE)与对比学习(contrastive learning)的模型。ViC-MAE通过在MAE重建损失下学习局部表征,并对这些局部表征进行全局池化以获得全局特征表示,随后在图像与视频帧之间利用该表示进行对比学习目标的优化。实验表明,ViC-MAE所学习到的视觉表征在图像与视频分类任务中均展现出优异的泛化能力。具体而言,在使用相同数据训练的情况下,ViC-MAE在从视频到图像的迁移学习任务中,于ImageNet-1k数据集上取得了86%的Top-1准确率,相较于近期提出的OmniMAE提升了1.3个百分点(绝对提升);当在额外数据上进行训练时,准确率进一步提升至87.1%,绝对提升达2.4个百分点。与此同时,ViC-MAE在具有挑战性的Something-Something-v2视频基准测试中,取得了75.9%的Top-1准确率,显著优于大多数现有方法。当在来自多样化数据集的视频与图像数据上联合训练时,我们的方法在视频与图像分类基准之间保持了均衡的迁移学习性能,仅以微弱差距位居最优监督方法之后,表现出卓越的跨模态适应能力。

代码仓库

基准测试

基准方法指标
action-classification-on-kinetics-400ViC-MAE (ViT-L)
Acc@1: 85.1
action-recognition-in-videos-on-somethingViC-MAE (ViT-L)
Top-1 Accuracy: 73.7
image-classification-on-imagenetViC-MAE (ViT-L)
Top 1 Accuracy: 85%
image-classification-on-places365ViC-MAE (ViT-L)
Top 1 Accuracy: 59.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViC-MAE:基于对比掩码自编码器的图像与视频自监督表征学习 | 论文 | HyperAI超神经