3 个月前

时空注意力机制是视频理解的唯一关键吗?

时空注意力机制是视频理解的唯一关键吗?

摘要

我们提出了一种无需卷积的视频分类方法,该方法完全基于时空维度上的自注意力机制。该方法名为“TimeSformer”,通过将标准Transformer架构拓展至视频领域,直接从帧级图像块序列中实现时空特征的学习。我们的实验研究对比了多种自注意力机制,结果表明,“分治注意力”(divided attention)策略——即在每个网络模块中分别独立应用时间注意力与空间注意力——在所考察的设计方案中取得了最佳的视频分类准确率。尽管采用了全新的架构设计,TimeSformer在多个动作识别基准测试中均达到了当前最优性能,包括在Kinetics-400和Kinetics-600数据集上报告的最佳准确率。此外,与3D卷积网络相比,我们的模型训练速度更快,可在仅小幅降低准确率的情况下实现显著更高的测试效率,并且能够处理长达一分钟以上的视频片段。代码与预训练模型已公开,详见:https://github.com/facebookresearch/TimeSformer。

基准测试

基准方法指标
action-classification-on-kinetics-400TimeSformer-L
Acc@1: 80.7
Acc@5: 94.7
FLOPs (G) x views: 7140x3
Parameters (M): 121.4
action-classification-on-kinetics-400TimeSformer-HR
Acc@1: 79.7
Acc@5: 94.4
action-classification-on-kinetics-400TimeSformer
Acc@1: 78
Acc@5: 93.7
action-recognition-in-videos-on-somethingTimeSformer-L
Top-1 Accuracy: 62.3
action-recognition-in-videos-on-somethingTimeSformer
Top-1 Accuracy: 59.5
action-recognition-in-videos-on-somethingTimeSformer-HR
Top-1 Accuracy: 62.5
action-recognition-on-diving-48TimeSformer
Accuracy: 75
action-recognition-on-diving-48TimeSformer-HR
Accuracy: 78
action-recognition-on-diving-48TimeSformer-L
Accuracy: 81
anomaly-detection-on-ubnormalTimeSformer
AUC: 68.5%
RBDC: 0.04
TBDC: 0.05
video-question-answering-on-howto100m-qaTimeSformer
Accuracy: 62.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时空注意力机制是视频理解的唯一关键吗? | 论文 | HyperAI超神经