
摘要
我们针对视频动作识别中的数据增强问题提出解决方案。现有的视频数据增强策略通常为人工设计,其对可能的增强样本空间的采样方式要么完全随机,无法判断哪些增强样本更优,要么依赖启发式规则。为此,我们提出学习何种视频样本更有利于动作识别,并仅选择高质量样本用于增强。具体而言,我们采用前景视频与背景视频拼接的方式作为数据增强方法,从而生成多样且逼真的新样本。关键在于,我们无需实际进行视频拼接,即可学习判断哪些视频对适合进行增强。这一方法显著缩小了可能的增强空间,带来双重优势:一方面降低了计算开销,另一方面提升了最终分类器的准确率,因为所选增强样本的质量普遍高于平均水准。我们在多种训练设置下进行了实验验证,涵盖少样本学习、半监督学习和全监督学习。在Kinetics、UCF101和HMDB51等多个基准数据集上,我们的方法在所有设置下均持续优于现有方法和基线模型,并在数据有限的场景下取得了新的最先进性能。尤其在半监督设置下,性能提升最高可达8.6%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-action-recognition-on-hmdb51 | Learn2Aug + TRX | 1:1 Accuracy: 76.4 |
| few-shot-action-recognition-on-ucf101 | Learn2Aug + TRX | 1:1 Accuracy: 96.5 |