
摘要
学习具有判别性的时空表征是视频理解的核心问题。近年来,视觉Transformer(Vision Transformers, ViTs)凭借自注意力机制在捕捉长时视频依赖关系方面展现出强大能力。然而,由于令牌(tokens)之间进行全局盲比较,这类模型在处理局部视频冗余方面存在局限性。UniFormer通过将卷积与自注意力统一为Transformer架构中的关系聚合器,有效缓解了这一问题。但该模型在微调用于视频任务前,必须经历繁琐且复杂的图像预训练过程,这严重限制了其在实际应用中的广泛使用。相比之下,开源的ViT模型已具备良好的预训练基础,并在丰富的图像监督下表现优异。基于上述观察,我们提出一种通用范式,通过将高效的UniFormer设计思想引入预训练的ViT模型,构建出一个强大的视频网络家族。我们将该系列模型命名为UniFormerV2,因其继承了UniFormer模块简洁的设计风格。然而,UniFormerV2引入了全新的局部与全局关系聚合器,能够无缝融合ViT与UniFormer的优势,在精度与计算效率之间实现更优的平衡。在不依赖任何额外技巧(bells and whistles)的前提下,我们的UniFormerV2在8个主流视频基准测试中均取得了当前最优的识别性能,涵盖场景相关任务(Kinetics-400/600/700、Moments in Time)和时序相关任务(Something-Something V1/V2、未剪辑的ActivityNet和HACS)。特别地,据我们所知,UniFormerV2是首个在Kinetics-400上实现90% top-1准确率的模型。相关模型将在后续公开发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-activitynet | UniFormerV2-L | Top 1 Accuracy: 94.7 Top 5 Accuracy: 99.5 |
| action-classification-on-kinetics-400 | UniFormerV2-L (ViT-L, 336) | Acc@1: 90.0 Acc@5: 98.4 FLOPs (G) x views: 75300x3x2 Parameters (M): 354 |
| action-classification-on-kinetics-600 | UniFormerV2-L | Top-1 Accuracy: 90.1 Top-5 Accuracy: 98.5 |
| action-classification-on-kinetics-700 | UniFormerV2-L | Top-1 Accuracy: 82.7 Top-5 Accuracy: 96.2 |
| action-classification-on-moments-in-time | UniFormerV2-L | Top 1 Accuracy: 47.8 Top 5 Accuracy: 76.9 |
| action-recognition-in-videos-on-something | UniFormerV2-L | GFLOPs: 5154 Top-1 Accuracy: 73.0 Top-5 Accuracy: 94.5 |
| action-recognition-in-videos-on-something-1 | UniFormerV2-L | Top 1 Accuracy: 62.7 Top 5 Accuracy: 88.0 |
| action-recognition-on-hacs | UniFormerV2-L | Top 1 Accuracy: 95.5 Top 5 Accuracy: 99.8 |