
摘要
少样本视频分类旨在仅通过少量标注样本学习新的视频类别,从而缓解现实应用中昂贵的标注负担。然而,在此类设置下,学习具有类别不变性的时空表征尤为具有挑战性。为此,本文提出一种新颖的基于匹配的少样本视频学习策略。我们的核心思想是为视频对引入隐式时间对齐机制,能够以准确且鲁棒的方式估计视频间的相似性。此外,我们设计了一种高效的上下文编码模块,用于融合空间信息与特征通道上下文,从而更优地建模类别内部的差异性。为训练模型,我们构建了一种多任务损失函数,用于学习视频匹配任务,使视频特征具备更强的泛化能力。在两个具有挑战性的基准数据集上的大量实验结果表明,本方法在SomethingSomething-V2上显著优于现有先进方法,在Kinetics数据集上也取得了具有竞争力的性能。
代码仓库
tonysy/PyAction
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-fs-something | ITANet | Top-1 Accuracy(5-Way-1-Shot): 39.8 Top-1 Accuracy(5-Way-5-Shot): 53.7 |
| action-recognition-in-videos-on-fs-something | CMN[35] | Top-1 Accuracy(5-Way-1-Shot): 36.2 Top-1 Accuracy(5-Way-5-Shot): 48.8 |
| action-recognition-in-videos-on-fs-something-1 | OTAM[3]++ | Top-1 Accuracy(5-Way-1-Shot): 42.8 Top-1 Accuracy(5-Way-5-Shot): 52.3 |
| action-recognition-in-videos-on-fs-something-1 | ITANet | Top-1 Accuracy(5-Way-1-Shot): 49.2 Top-1 Accuracy(5-Way-5-Shot): 62.3 |