4 个月前

EVEREST:通过移除冗余时空标记实现高效的掩码视频自动编码器

EVEREST:通过移除冗余时空标记实现高效的掩码视频自动编码器

摘要

掩码视频自动编码器(MVA)方法通过显著超越先前的视频表征学习方法展示了其潜力。然而,由于随机掩码策略,它们在预测无信息量的令牌/帧时浪费了大量计算资源和内存(例如,超过16个节点使用128块NVIDIA A100 GPU)。为了解决这一问题,我们利用视频中各补丁之间信息密度不均的特点,提出了一种高效的方法——EVEREST,该方法在预训练和微调过程中都能识别出包含丰富运动特征的令牌并丢弃无信息量的令牌。此外,我们还提出了一种信息密集型帧选择策略,使模型能够在最小冗余的情况下专注于信息量大且具有因果关系的帧。我们的方法显著降低了MVA的计算和内存需求,使得仅使用一台配备8块GPU的机器就能进行预训练和微调,并在多个基准测试和未整理的Ego4D数据集上取得了与计算和内存消耗较大的基线方法相当的性能。我们希望这项工作能够降低进一步研究视频理解领域的门槛。

代码仓库

sunilhoho/everest
官方
pytorch
GitHub 中提及
sunilhoho/VideoMS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
self-supervised-action-recognition-on-hmdb51VideoMS (ViT-B)
Frozen: false
Pre-Training Dataset: no extra data
Top-1 Accuracy: 65.8
self-supervised-action-recognition-on-ucf101VideoMS (ViT-B)
3-fold Accuracy: 93.4
Frozen: false
Pre-Training Dataset: no extra data

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EVEREST:通过移除冗余时空标记实现高效的掩码视频自动编码器 | 论文 | HyperAI超神经