
摘要
时间建模在视频动作识别任务中仍然是一个具有挑战性的问题。为缓解这一难题,本文提出了一种新型视频架构——时序差分网络(Temporal Difference Network, TDN),其核心目标是高效捕捉多尺度时序信息,以提升动作识别性能。TDN 的关键在于设计了一种高效的时序模块(Temporal Difference Module, TDM),该模块显式地利用时序差分算子,并系统地评估其在短期与长期运动建模中的作用。为充分捕获视频全局时序信息,TDN 采用两级差分建模范式:在局部运动建模中,通过连续帧之间的时序差分,为 2D 卷积神经网络(CNN)提供更精细的运动模式;在全局运动建模中,则引入跨片段的时序差分,以捕捉长距离运动结构,从而增强运动特征的表达能力。TDN 构建了一个简洁且具有理论依据的时序建模框架,可与现有 CNN 架构无缝结合,仅带来极小的额外计算开销。实验结果表明,TDN 在 Something-Something V1 与 V2 数据集上取得了新的最先进性能,同时在 Kinetics-400 数据集上达到了当前最优水平。此外,本文还进行了深入的消融实验,并可视化了 TDN 的特征响应结果,旨在为时序差分建模提供有价值的分析见解。相关代码已开源,地址为:https://github.com/MCG-NJU/TDN。
代码仓库
MCG-NJU/TDN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | TDN-ResNet101 (ensemble, ImageNet pretrained, RGB only) | Acc@1: 79.4 Acc@5: 94.4 |
| action-recognition-in-videos-on-something | TDN ResNet101 (one clip, three crop, 8+16 ensemble, ImageNet pretrained, RGB only) | GFLOPs: 198x3 Top-1 Accuracy: 69.6 Top-5 Accuracy: 92.2 |
| action-recognition-in-videos-on-something | TDN ResNet101 (one clip, center crop, 8+16 ensemble, ImageNet pretrained, RGB only) | GFLOPs: 198x1 Top-1 Accuracy: 68.2 Top-5 Accuracy: 91.6 |
| action-recognition-in-videos-on-something-1 | TDN ResNet101 (one clip, center crop, 8+16 ensemble, ImageNet pretrained, RGB only) | Top 1 Accuracy: 56.8 Top 5 Accuracy: 84.1 |