
摘要
自监督学习是一种有效的无标签模型预训练方法,特别是在视频领域,由于标注成本高昂,这种方法尤为重要。现有的视频领域自监督研究采用了不同的实验设置来展示其有效性,这使得不同方法之间的比较变得困难,缺乏一个标准的基准。在本研究中,我们首先提供了一个基准,使现有方法能够在相同的条件下进行比较。接下来,我们从五个不同的方面对视频中的自监督学习进行了研究:1) 数据集规模,2) 复杂度,3) 数据分布,4) 数据噪声,以及 5) 特征分析。为了便于这项研究的开展,我们重点关注了七种不同的方法以及七种不同的网络架构,并在五个不同的数据集上进行了广泛的实验,评估了两个不同的下游任务。我们从这项研究中得出了多个有趣的见解,这些见解涵盖了预训练和目标数据集的不同属性、预训练任务(pretext-tasks)以及模型架构等方面。此外,我们将其中一些见解付诸实践,并提出了一种仅需有限训练数据的方法,在性能上超过了使用10倍预训练数据的现有最先进方法。我们认为这项工作将为研究人员更好地理解视频表示学习中的自监督预训练任务铺平道路。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| self-supervised-action-recognition-on-ucf101 | SSL-KD (R21D-18) | 3-fold Accuracy: 97.3 Frozen: false Pre-Training Dataset: Kinetics400 |