
摘要
视频重复计数是指推断视频中反复出现的动作或运动的次数。我们提出了一种基于示例的方法,该方法能够在目标视频内发现不同重复动作之间的视觉对应关系。我们提出的“每一帧都重要”(Every Shot Counts, ESCounts)模型是一种基于注意力机制的编码器-解码器架构,可以对不同长度的视频及其来自相同或不同视频的示例进行编码。在训练过程中,ESCounts 回归到视频中与示例具有高对应性的位置。同时,我们的方法学习了一个潜在空间,用于编码一般重复运动的表示,这使得我们可以在没有示例的情况下进行零样本推理。在常用数据集(RepCount、Countix 和 UCFRep)上进行的大量实验表明,ESCounts 在所有三个数据集上均取得了最先进的性能。详细的消融实验进一步证明了我们方法的有效性。
代码仓库
sinhasaptarshi/EveryShotCounts
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| repetitive-action-counting-on-countix | ESCounts | MAE: 0.276 OBO: 0.673 OBZ: 0.319 RMSE: 3.029 |
| repetitive-action-counting-on-repcount | ESCounts | MAE: 0.213 OBO: 0.563 OBZ: 0.245 RMSE: 4.455 |
| repetitive-action-counting-on-ucfrep | ESCounts | MAE: 0.216 OBO: 0.704 OBZ: 0.381 RMSE: 1.972 |