3 个月前

简单的算术运算对时间建模能做什么?

简单的算术运算对时间建模能做什么?

摘要

时间建模在理解视频内容方面起着至关重要的作用。以往的研究得益于计算能力强大的设备的发展,通过时间序列构建复杂的时序关系来应对这一挑战。在本工作中,我们探索了四种简单算术运算在时间建模中的潜力。具体而言,我们首先通过计算提取的帧特征对之间的加法、减法、乘法和除法,捕捉辅助的时间线索;随后,从这些线索中提取相应特征,以增强原始与时间无关的特征域。我们将这一简洁的处理流程称为算术时间模块(Arithmetic Temporal Module, ATM),该模块以即插即用的方式作用于视觉主干网络的前端。我们在ATM的不同实现形式上进行了全面的消融实验,结果表明,该模块在计算开销极低的情况下,仍具备强大的时间建模能力。此外,ATM兼容基于CNN和ViT的各类网络架构。实验结果表明,ATM在多个主流视频基准测试中均取得了优异性能:在Something-Something V1、V2以及Kinetics-400数据集上,分别达到了65.6%、74.6%和89.4%的Top-1准确率。相关代码已开源,地址为:https://github.com/whwu95/ATM。

代码仓库

whwu95/ATM
官方
pytorch
GitHub 中提及
HJYao00/Side4Video
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400ATM
Acc@1: 89.4
Acc@5: 98.3
action-recognition-in-videos-on-somethingATM
Top-1 Accuracy: 74.6
Top-5 Accuracy: 94.4
action-recognition-in-videos-on-something-1ATM
Top 1 Accuracy: 65.6
Top 5 Accuracy: 88.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
简单的算术运算对时间建模能做什么? | 论文 | HyperAI超神经