8 个月前

摘要

得益于掩码视觉建模，自监督视频表示学习取得了显著进展。然而，现有的方法主要集中在通过重建低级特征（如原始像素RGB值）从零开始学习表示。在本文中，我们提出了一种简单而有效的两阶段掩码特征建模框架——掩码视频蒸馏（Masked Video Distillation, MVD），用于视频表示学习：首先，我们通过恢复掩码块的低级特征来预训练图像（或视频）模型，然后将生成的特征作为掩码特征建模的目标。对于教师模型的选择，我们观察到由视频教师指导的学生在时间密集型视频任务上表现更好，而图像教师则为空间密集型视频任务传递更强的空间表示。可视化分析也表明不同的教师会产生不同的学生学习模式。基于这一观察结果，我们设计了一种空间-时间协同教学方法用于MVD。具体而言，我们通过掩码特征建模从视频教师和图像教师中提取学生模型。大量的实验结果表明，在多个视频数据集上，采用空间-时间协同教学预训练的视频Transformer优于单个教师蒸馏的模型。我们的MVD与基础版ViT相比，在几个具有挑战性的视频下游任务中达到了最先进的性能。例如，使用ViT-Large模型时，我们的MVD在Kinetics-400和Something-Something-v2数据集上的Top-1准确率分别达到86.4%和76.7%，分别比VideoMAE高出1.2%和2.4%。当采用更大的ViT-Huge模型时，MVD在Something-Something-v2数据集上的Top-1准确率达到77.3%，在AVA v2.2数据集上的mAP达到41.1%，均达到了当前最佳水平。代码将在\url{https://github.com/ruiwang2021/mvd}提供。

源 PDF