
摘要
我们提出了一种无需卷积的视频分类方法,该方法完全基于时空维度上的自注意力机制。该方法名为“TimeSformer”,通过将标准Transformer架构拓展至视频领域,直接从帧级图像块序列中实现时空特征的学习。我们的实验研究对比了多种自注意力机制,结果表明,“分治注意力”(divided attention)策略——即在每个网络模块中分别独立应用时间注意力与空间注意力——在所考察的设计方案中取得了最佳的视频分类准确率。尽管采用了全新的架构设计,TimeSformer在多个动作识别基准测试中均达到了当前最优性能,包括在Kinetics-400和Kinetics-600数据集上报告的最佳准确率。此外,与3D卷积网络相比,我们的模型训练速度更快,可在仅小幅降低准确率的情况下实现显著更高的测试效率,并且能够处理长达一分钟以上的视频片段。代码与预训练模型已公开,详见:https://github.com/facebookresearch/TimeSformer。
代码仓库
yiyixuxu/TimeSformer-rolled-attention
pytorch
GitHub 中提及
facebookresearch/TimeSformer
官方
pytorch
GitHub 中提及
m-bain/video-transformers
pytorch
GitHub 中提及
md-mohaiminul/objectstatechange
pytorch
GitHub 中提及
lucidrains/TimeSformer-pytorch
pytorch
GitHub 中提及
jerrywn121/TianChi_AIEarth
pytorch
GitHub 中提及
pwc-1/Paper-10/tree/main/timesformer
mindspore
davide-coccomini/TimeSformer-Video-Classification
pytorch
GitHub 中提及
mx-mark/videotransformer-pytorch
pytorch
GitHub 中提及
open-mmlab/mmaction2
pytorch
halixness/generative_timesformer_pytorch
pytorch
GitHub 中提及
towhee-io/towhee
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | TimeSformer-L | Acc@1: 80.7 Acc@5: 94.7 FLOPs (G) x views: 7140x3 Parameters (M): 121.4 |
| action-classification-on-kinetics-400 | TimeSformer-HR | Acc@1: 79.7 Acc@5: 94.4 |
| action-classification-on-kinetics-400 | TimeSformer | Acc@1: 78 Acc@5: 93.7 |
| action-recognition-in-videos-on-something | TimeSformer-L | Top-1 Accuracy: 62.3 |
| action-recognition-in-videos-on-something | TimeSformer | Top-1 Accuracy: 59.5 |
| action-recognition-in-videos-on-something | TimeSformer-HR | Top-1 Accuracy: 62.5 |
| action-recognition-on-diving-48 | TimeSformer | Accuracy: 75 |
| action-recognition-on-diving-48 | TimeSformer-HR | Accuracy: 78 |
| action-recognition-on-diving-48 | TimeSformer-L | Accuracy: 81 |
| anomaly-detection-on-ubnormal | TimeSformer | AUC: 68.5% RBDC: 0.04 TBDC: 0.05 |
| video-question-answering-on-howto100m-qa | TimeSformer | Accuracy: 62.1 |