
摘要
我们提出一个用于动作识别的新公共视频数据集:来自多个国家的匿名化视频(Anonymized Videos from Diverse countries, 简称 AViD)。与现有的公共视频数据集不同,AViD 是一个涵盖多个不同国家的动作视频集合。其核心动机在于构建一个面向全球公众的数据集,以促进动作识别模型的训练与预训练,而非仅服务于少数特定国家。此外,AViD 中所有视频中的人脸身份均已进行妥善匿名化处理,以充分保护个人隐私。该数据集为静态数据集,每段视频均采用知识共享(Creative Commons)许可协议发布。我们验证发现,现有大多数视频数据集在统计上存在显著偏差,主要集中于少数几个国家的动作视频。通过实验我们进一步证明,基于此类有偏数据集训练的模型,在迁移到其他国家的动作视频时,性能表现并不理想。而 AViD 数据集有效缓解了这一问题。同时,我们还验证了 AViD 可作为优秀的预训练数据集,其性能可与甚至优于以往的公开数据集。
代码仓库
piergiaj/AViD
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-avid | SlowFast-50 4x4 | Accuracy: 48.5 |
| action-classification-on-avid | SlowFast-50 8x8 | Accuracy: 50.4 |
| action-classification-on-avid | (2+1)D ResNet-50 | Accuracy: 48.8 |
| action-classification-on-avid | I3D | Accuracy: 46.8 |
| action-classification-on-avid | SlowFast-101 16x8 | Accuracy: 50.9 |
| action-classification-on-avid | 2D ResNet-50 | Accuracy: 36.2 |
| action-classification-on-avid | 3D ResNet-50 | Accuracy: 48.2 |
| action-classification-on-avid | RepFlow ResNet-50 | Accuracy: 50.5 |
| action-classification-on-avid | Two-Stream 3D ResNet-50 | Accuracy: 50.1 |
| action-detection-on-charades | 3D ResNet-50 pretrained on AViD | mAP: 23.2 |
| action-detection-on-charades | 3D ResNet-50 + super-events pretrained on AViD | mAP: 25.2 |