摘要
运动建模在现代动作识别方法中至关重要。由于不同视频片段中的运动动态(如运动节奏和动作幅度)可能存在显著差异,如何自适应地捕捉恰当的运动信息成为一大挑战。为解决这一问题,我们提出一种运动多样化与选择(Motion Diversification and Selection, MoDS)模块,用于生成多样化的时空运动特征,并动态选择最适合的运动表征以对输入视频进行分类。具体而言,我们首先设计了一个时空运动生成(Spatio-Temporal Motion Generation, StMG)模块,构建一个包含不同空间邻域和时间范围的多样化运动特征库。随后,引入动态运动选择(Dynamic Motion Selection, DMS)模块,从该特征库中同时在空间和时间维度上筛选最具判别性的运动特征。由此,所提出的方法能够在充分利用多样化时空运动信息的同时,保持推理阶段的计算效率。在五个广泛使用的基准数据集上的大量实验验证了该方法的有效性,尤其在运动变化较大的 Something-Something V1 与 V2 数据集上,取得了当前最优的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-something | MoDS (8+16frames) | Top-1 Accuracy: 67.1 |
| action-recognition-in-videos-on-something-1 | MoDS (8+16frames) | Top 1 Accuracy: 56.6 |