
摘要
时间建模在理解视频内容方面起着至关重要的作用。以往的研究得益于计算能力强大的设备的发展,通过时间序列构建复杂的时序关系来应对这一挑战。在本工作中,我们探索了四种简单算术运算在时间建模中的潜力。具体而言,我们首先通过计算提取的帧特征对之间的加法、减法、乘法和除法,捕捉辅助的时间线索;随后,从这些线索中提取相应特征,以增强原始与时间无关的特征域。我们将这一简洁的处理流程称为算术时间模块(Arithmetic Temporal Module, ATM),该模块以即插即用的方式作用于视觉主干网络的前端。我们在ATM的不同实现形式上进行了全面的消融实验,结果表明,该模块在计算开销极低的情况下,仍具备强大的时间建模能力。此外,ATM兼容基于CNN和ViT的各类网络架构。实验结果表明,ATM在多个主流视频基准测试中均取得了优异性能:在Something-Something V1、V2以及Kinetics-400数据集上,分别达到了65.6%、74.6%和89.4%的Top-1准确率。相关代码已开源,地址为:https://github.com/whwu95/ATM。
代码仓库
whwu95/ATM
官方
pytorch
GitHub 中提及
HJYao00/Side4Video
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | ATM | Acc@1: 89.4 Acc@5: 98.3 |
| action-recognition-in-videos-on-something | ATM | Top-1 Accuracy: 74.6 Top-5 Accuracy: 94.4 |
| action-recognition-in-videos-on-something-1 | ATM | Top 1 Accuracy: 65.6 Top 5 Accuracy: 88.6 |