4 个月前

TSM:时间移位模块用于高效的视频理解

TSM:时间移位模块用于高效的视频理解

摘要

视频流媒体的爆炸性增长带来了在高精度和低计算成本下进行视频理解的挑战。传统的二维卷积神经网络(2D CNN)虽然计算成本较低,但无法捕捉时间关系;基于三维卷积神经网络(3D CNN)的方法可以实现良好的性能,但计算复杂度较高,导致部署成本高昂。本文提出了一种通用且有效的时移模块(Temporal Shift Module, TSM),该模块兼具高效性和高性能。具体而言,它可以达到三维卷积神经网络的性能水平,同时保持二维卷积神经网络的复杂度。TSM通过沿时间维度移动部分通道来促进相邻帧之间的信息交换。它可以插入到二维卷积神经网络中,以零计算量和零参数实现时间建模。我们还将TSM扩展到了在线设置中,从而实现了实时低延迟的在线视频识别和视频目标检测。TSM具有准确性和高效性:发布时在Something-Something排行榜上排名第一;在Jetson Nano和Galaxy Note8上,它分别实现了13毫秒和35毫秒的低延迟在线视频识别。代码可在以下地址获取:https://github.com/mit-han-lab/temporal-shift-module。

基准测试

基准方法指标
3d-action-recognition-on-assembly101TSM
Actions Top-1: 35.27
Object Top-1: 47.45
Verbs Top-1: 58.27
action-classification-on-kinetics-400TSM
Acc@1: 74.7
action-recognition-in-videos-on-somethingTSM (RGB + Flow)
Top-1 Accuracy: 66.6
Top-5 Accuracy: 91.3
action-recognition-in-videos-on-something-1TSM (RGB + Flow)
Top 1 Accuracy: 50.7
action-recognition-in-videos-on-something-1TSMEn
Top 1 Accuracy: 49.7
Top 5 Accuracy: 78.5
action-recognition-in-videos-on-something-1TSM
Top 1 Accuracy: 47.2
Top 5 Accuracy: 77.1
video-object-detection-on-imagenet-vidOnline TSM
MAP : 76.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TSM:时间移位模块用于高效的视频理解 | 论文 | HyperAI超神经