6 个月前

计算机视觉

卷积神经网络

计算机视觉

Wenhao Wu Yuxin Song Zhun Sun Jingdong Wang Chang Xu Wanli Ouyang

摘要

时间建模在理解视频内容方面起着至关重要的作用。以往的研究得益于计算能力强大的设备的发展，通过时间序列构建复杂的时序关系来应对这一挑战。在本工作中，我们探索了四种简单算术运算在时间建模中的潜力。具体而言，我们首先通过计算提取的帧特征对之间的加法、减法、乘法和除法，捕捉辅助的时间线索；随后，从这些线索中提取相应特征，以增强原始与时间无关的特征域。我们将这一简洁的处理流程称为算术时间模块（Arithmetic Temporal Module, ATM），该模块以即插即用的方式作用于视觉主干网络的前端。我们在ATM的不同实现形式上进行了全面的消融实验，结果表明，该模块在计算开销极低的情况下，仍具备强大的时间建模能力。此外，ATM兼容基于CNN和ViT的各类网络架构。实验结果表明，ATM在多个主流视频基准测试中均取得了优异性能：在Something-Something V1、V2以及Kinetics-400数据集上，分别达到了65.6%、74.6%和89.4%的Top-1准确率。相关代码已开源，地址为：https://github.com/whwu95/ATM。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

卷积神经网络

计算机视觉

Wenhao Wu Yuxin Song Zhun Sun Jingdong Wang Chang Xu Wanli Ouyang

摘要

时间建模在理解视频内容方面起着至关重要的作用。以往的研究得益于计算能力强大的设备的发展，通过时间序列构建复杂的时序关系来应对这一挑战。在本工作中，我们探索了四种简单算术运算在时间建模中的潜力。具体而言，我们首先通过计算提取的帧特征对之间的加法、减法、乘法和除法，捕捉辅助的时间线索；随后，从这些线索中提取相应特征，以增强原始与时间无关的特征域。我们将这一简洁的处理流程称为算术时间模块（Arithmetic Temporal Module, ATM），该模块以即插即用的方式作用于视觉主干网络的前端。我们在ATM的不同实现形式上进行了全面的消融实验，结果表明，该模块在计算开销极低的情况下，仍具备强大的时间建模能力。此外，ATM兼容基于CNN和ViT的各类网络架构。实验结果表明，ATM在多个主流视频基准测试中均取得了优异性能：在Something-Something V1、V2以及Kinetics-400数据集上，分别达到了65.6%、74.6%和89.4%的Top-1准确率。相关代码已开源，地址为：https://github.com/whwu95/ATM。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

简单的算术运算对时间建模能做什么？ | 论文 | HyperAI超神经