
摘要
我们提出了一种新颖的少样本动作识别方法,通过在查询视频与支持集视频之间寻找时间上对齐的帧元组(frame tuples),实现动作匹配。与以往的少样本方法不同,我们采用CrossTransformer注意力机制构建类别原型,以捕捉所有支持视频中相关的子序列,而非依赖类别平均值或单一最佳匹配。视频表征由包含不同帧数的有序帧元组构成,从而能够对不同速度和时间偏移的动作子序列进行有效比较。我们提出的时序关系交叉变换器(Temporal-Relational CrossTransformers, TRX)在Kinetics、Something-Something V2(SSv2)、HMDB51和UCF101的少样本划分上均取得了当前最优性能。尤为重要的是,由于具备建模时序关系的能力,我们的方法在SSv2数据集上的表现相比先前工作显著提升,准确率高出12%。详细的消融实验进一步验证了同时匹配多个支持集视频以及学习高阶关系交叉变换器的重要性。
代码仓库
tobyperrett/trx
官方
pytorch
GitHub 中提及
tobyperrett/few-shot-action-recognition
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-action-recognition-on-hmdb51 | TRX | 1:1 Accuracy: 75.6 |
| few-shot-action-recognition-on-kinetics-100 | TRX | Accuracy: 85.9 |
| few-shot-action-recognition-on-something | TRX | 1:1 Accuracy: 64.6 |
| few-shot-action-recognition-on-ucf101 | TRX | 1:1 Accuracy: 96.1 |