
摘要
近年来,人们对学习一种能够在仅有少量标注样本的情况下识别新类别的模型产生了浓厚的兴趣。本文提出了一种新的少样本学习框架——时间对齐模块(Temporal Alignment Module,TAM),该框架能够对以前未见过的视频进行分类。大多数先前的研究忽略了长期的时间顺序信息,而我们提出的模型通过时间对齐显式地利用了视频数据中的时间顺序信息,从而在少样本学习中实现了强大的数据效率。具体而言,TAM 通过沿其对齐路径平均每个帧的距离来计算查询视频与新类别代理之间的距离值。我们引入了连续松弛技术以使 TAM 能够端到端地学习,直接优化少样本学习目标。我们在两个具有挑战性的现实世界数据集 Kinetics 和 Something-Something-V2 上评估了 TAM,并展示了我们的模型在广泛的竞争基线方法上显著提高了少样本视频分类的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-something | TAM (5-shot) | Top-1 Accuracy: 52.3 |
| few-shot-action-recognition-on-kinetics-100 | OTAM | Accuracy: 85.8 |
| few-shot-action-recognition-on-something | OTAM | 1:1 Accuracy: 52.3 |