
摘要
当前的全监督视频数据集仅包含数十万条视频和不到一千个领域特定标签。这阻碍了向更高级视频架构的发展。本文对使用大量网络视频(超过6500万条)进行预训练以完成动作识别任务的视频模型进行了深入研究。我们的主要实证发现是,尽管这些噪声较大的社交媒体视频和标签存在,大规模预训练仍显著提升了在三个具有挑战性的公开动作识别数据集上的现有技术水平。此外,我们探讨了构建弱监督视频动作数据集时的三个问题。首先,鉴于动作涉及与物体的互动,如何构建一个动词-物体预训练标签空间以最大程度地促进迁移学习?其次,基于帧的模型在动作识别方面表现良好;仅仅为图像特征进行预训练是否足够,还是为时空特征进行预训练对于最佳迁移学习同样重要?最后,相对于短视频而言,长视频中的动作通常定位较差;由于动作标签是在视频级别提供的,在给定固定数量或分钟数的视频预算下,如何选择最佳的视频片段以获得最佳性能?
代码仓库
open-mmlab/mmaction2
pytorch
moabitcoin/ig65m-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | irCSN-152 (IG-Kinetics-65M pretrain) | Acc@1: 82.8 |
| egocentric-activity-recognition-on-epic-1 | R(2+1)D-34 (kinetics) | Actions Top-1 (S2): 16.8 |
| egocentric-activity-recognition-on-epic-1 | R(2+1)D-152-SE (ig) | Actions Top-1 (S2): 25.6 |