3 个月前

视频Transformer网络

视频Transformer网络

摘要

本文提出了VTN(Video Transformer Network),一种基于Transformer架构的视频识别框架。受视觉Transformer近期发展的启发,我们摒弃了传统视频动作识别中依赖3D卷积网络(3D ConvNets)的标准方法,提出了一种通过关注整个视频序列信息来实现动作分类的新方法。该方法具有通用性,可基于任意给定的2D空间主干网络构建。在实际运行时间方面,VTN的训练速度比其他先进方法快16.1倍,推理速度也快5.1倍,同时保持了具有竞争力的识别精度。该方法仅需一次端到端的前向传播即可完成整段视频的分析,且计算量仅需1.5倍更少的GFLOPs。我们在Kinetics-400数据集上取得了具有竞争力的实验结果,并对VTN的关键特性进行了消融研究,深入分析了精度与推理速度之间的权衡关系。我们期望本方法能成为视频识别领域的新基准,并推动该方向开启一条全新的研究路径。代码与模型已开源,详见:https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md

基准测试

基准方法指标
action-classification-on-kinetics-400ViT-B-VTN+ ImageNet-21K (84.0 [10])
Acc@1: 79.8
action-classification-on-kinetics-400ViT-B-VTN (1 layer, ImageNet pretrain)
Acc@5: 93.4
action-classification-on-kinetics-400ViT-B-VTN+ ImageNet-21K (84.0 [10])
Acc@5: 94.2
action-classification-on-kinetics-400ViT-B-VTN (3 layers, ImageNet pretrain)
Acc@1: 78.6
Acc@5: 93.7
action-classification-on-moments-in-timeVTN
Top 1 Accuracy: 37.4
Top 5 Accuracy: 65.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频Transformer网络 | 论文 | HyperAI超神经