4 个月前

每一帧都有意义:利用范例在视频中进行重复计数

每一帧都有意义:利用范例在视频中进行重复计数

摘要

视频重复计数是指推断视频中反复出现的动作或运动的次数。我们提出了一种基于示例的方法,该方法能够在目标视频内发现不同重复动作之间的视觉对应关系。我们提出的“每一帧都重要”(Every Shot Counts, ESCounts)模型是一种基于注意力机制的编码器-解码器架构,可以对不同长度的视频及其来自相同或不同视频的示例进行编码。在训练过程中,ESCounts 回归到视频中与示例具有高对应性的位置。同时,我们的方法学习了一个潜在空间,用于编码一般重复运动的表示,这使得我们可以在没有示例的情况下进行零样本推理。在常用数据集(RepCount、Countix 和 UCFRep)上进行的大量实验表明,ESCounts 在所有三个数据集上均取得了最先进的性能。详细的消融实验进一步证明了我们方法的有效性。

代码仓库

sinhasaptarshi/EveryShotCounts
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
repetitive-action-counting-on-countixESCounts
MAE: 0.276
OBO: 0.673
OBZ: 0.319
RMSE: 3.029
repetitive-action-counting-on-repcountESCounts
MAE: 0.213
OBO: 0.563
OBZ: 0.245
RMSE: 4.455
repetitive-action-counting-on-ucfrepESCounts
MAE: 0.216
OBO: 0.704
OBZ: 0.381
RMSE: 1.972

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
每一帧都有意义:利用范例在视频中进行重复计数 | 论文 | HyperAI超神经