6 个月前

摘要

时间建模在视频动作识别任务中仍然是一个具有挑战性的问题。为缓解这一难题，本文提出了一种新型视频架构——时序差分网络（Temporal Difference Network, TDN），其核心目标是高效捕捉多尺度时序信息，以提升动作识别性能。TDN 的关键在于设计了一种高效的时序模块（Temporal Difference Module, TDM），该模块显式地利用时序差分算子，并系统地评估其在短期与长期运动建模中的作用。为充分捕获视频全局时序信息，TDN 采用两级差分建模范式：在局部运动建模中，通过连续帧之间的时序差分，为 2D 卷积神经网络（CNN）提供更精细的运动模式；在全局运动建模中，则引入跨片段的时序差分，以捕捉长距离运动结构，从而增强运动特征的表达能力。TDN 构建了一个简洁且具有理论依据的时序建模框架，可与现有 CNN 架构无缝结合，仅带来极小的额外计算开销。实验结果表明，TDN 在 Something-Something V1 与 V2 数据集上取得了新的最先进性能，同时在 Kinetics-400 数据集上达到了当前最优水平。此外，本文还进行了深入的消融实验，并可视化了 TDN 的特征响应结果，旨在为时序差分建模提供有价值的分析见解。相关代码已开源，地址为：https://github.com/MCG-NJU/TDN。

源 PDF 查看代码