
摘要
当前的少样本动作识别方法通过基于情景的训练学习每个视频的判别特征,并设计了多种时间对齐策略,从而达到了令人印象深刻的效果。然而,这些方法存在两个局限性:(a) 在不考虑整个任务的情况下学习个体特征可能会丢失当前情景中最相关的信息;(b) 这些对齐策略在未对齐实例中可能失效。为了解决这两个问题,我们提出了一种新的混合关系引导集合匹配(HyRSM)方法,该方法包含两个关键组件:混合关系模块和集合匹配度量。混合关系模块的目的是通过充分利用情景内和跨视频的相关关系来学习特定任务的嵌入向量。在此基础上,我们将查询视频和支持视频之间的距离度量重新定义为一个集合匹配问题,并进一步设计了一个双向平均豪斯多夫度量(Mean Hausdorff Metric),以提高对未对齐实例的鲁棒性。通过这种方式,所提出的 HyRSM 方法能够在少样本设置下高效且灵活地预测查询类别。我们在六个具有挑战性的基准数据集上评估了 HyRSM 方法,实验结果表明其性能显著优于现有的最先进方法。项目页面:https://hyrsm-cvpr2022.github.io/。
代码仓库
alibaba-mmai-research/HyRSM
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-action-recognition-on-hmdb51 | HyRSM | 1:1 Accuracy: 76.0 |
| few-shot-action-recognition-on-kinetics-100 | HyRSM | Accuracy: 86.1 |
| few-shot-action-recognition-on-something | HyRSM | 1:1 Accuracy: 69.0 |
| few-shot-action-recognition-on-ucf101 | HyRSM | 1:1 Accuracy: 94.7 |