
摘要
掩码视频自动编码器(MVA)方法通过显著超越先前的视频表征学习方法展示了其潜力。然而,由于随机掩码策略,它们在预测无信息量的令牌/帧时浪费了大量计算资源和内存(例如,超过16个节点使用128块NVIDIA A100 GPU)。为了解决这一问题,我们利用视频中各补丁之间信息密度不均的特点,提出了一种高效的方法——EVEREST,该方法在预训练和微调过程中都能识别出包含丰富运动特征的令牌并丢弃无信息量的令牌。此外,我们还提出了一种信息密集型帧选择策略,使模型能够在最小冗余的情况下专注于信息量大且具有因果关系的帧。我们的方法显著降低了MVA的计算和内存需求,使得仅使用一台配备8块GPU的机器就能进行预训练和微调,并在多个基准测试和未整理的Ego4D数据集上取得了与计算和内存消耗较大的基线方法相当的性能。我们希望这项工作能够降低进一步研究视频理解领域的门槛。
代码仓库
sunilhoho/everest
官方
pytorch
GitHub 中提及
sunilhoho/VideoMS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| self-supervised-action-recognition-on-hmdb51 | VideoMS (ViT-B) | Frozen: false Pre-Training Dataset: no extra data Top-1 Accuracy: 65.8 |
| self-supervised-action-recognition-on-ucf101 | VideoMS (ViT-B) | 3-fold Accuracy: 93.4 Frozen: false Pre-Training Dataset: no extra data |