3 个月前

TDN:用于高效动作识别的时间差分网络

TDN:用于高效动作识别的时间差分网络

摘要

时间建模在视频动作识别任务中仍然是一个具有挑战性的问题。为缓解这一难题,本文提出了一种新型视频架构——时序差分网络(Temporal Difference Network, TDN),其核心目标是高效捕捉多尺度时序信息,以提升动作识别性能。TDN 的关键在于设计了一种高效的时序模块(Temporal Difference Module, TDM),该模块显式地利用时序差分算子,并系统地评估其在短期与长期运动建模中的作用。为充分捕获视频全局时序信息,TDN 采用两级差分建模范式:在局部运动建模中,通过连续帧之间的时序差分,为 2D 卷积神经网络(CNN)提供更精细的运动模式;在全局运动建模中,则引入跨片段的时序差分,以捕捉长距离运动结构,从而增强运动特征的表达能力。TDN 构建了一个简洁且具有理论依据的时序建模框架,可与现有 CNN 架构无缝结合,仅带来极小的额外计算开销。实验结果表明,TDN 在 Something-Something V1 与 V2 数据集上取得了新的最先进性能,同时在 Kinetics-400 数据集上达到了当前最优水平。此外,本文还进行了深入的消融实验,并可视化了 TDN 的特征响应结果,旨在为时序差分建模提供有价值的分析见解。相关代码已开源,地址为:https://github.com/MCG-NJU/TDN。

代码仓库

MCG-NJU/TDN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400TDN-ResNet101 (ensemble, ImageNet pretrained, RGB only)
Acc@1: 79.4
Acc@5: 94.4
action-recognition-in-videos-on-somethingTDN ResNet101 (one clip, three crop, 8+16 ensemble, ImageNet pretrained, RGB only)
GFLOPs: 198x3
Top-1 Accuracy: 69.6
Top-5 Accuracy: 92.2
action-recognition-in-videos-on-somethingTDN ResNet101 (one clip, center crop, 8+16 ensemble, ImageNet pretrained, RGB only)
GFLOPs: 198x1
Top-1 Accuracy: 68.2
Top-5 Accuracy: 91.6
action-recognition-in-videos-on-something-1TDN ResNet101 (one clip, center crop, 8+16 ensemble, ImageNet pretrained, RGB only)
Top 1 Accuracy: 56.8
Top 5 Accuracy: 84.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TDN:用于高效动作识别的时间差分网络 | 论文 | HyperAI超神经