3 个月前

少样本动作识别中的时序关系交叉Transformer

少样本动作识别中的时序关系交叉Transformer

摘要

我们提出了一种新颖的少样本动作识别方法,通过在查询视频与支持集视频之间寻找时间上对齐的帧元组(frame tuples),实现动作匹配。与以往的少样本方法不同,我们采用CrossTransformer注意力机制构建类别原型,以捕捉所有支持视频中相关的子序列,而非依赖类别平均值或单一最佳匹配。视频表征由包含不同帧数的有序帧元组构成,从而能够对不同速度和时间偏移的动作子序列进行有效比较。我们提出的时序关系交叉变换器(Temporal-Relational CrossTransformers, TRX)在Kinetics、Something-Something V2(SSv2)、HMDB51和UCF101的少样本划分上均取得了当前最优性能。尤为重要的是,由于具备建模时序关系的能力,我们的方法在SSv2数据集上的表现相比先前工作显著提升,准确率高出12%。详细的消融实验进一步验证了同时匹配多个支持集视频以及学习高阶关系交叉变换器的重要性。

代码仓库

tobyperrett/trx
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
少样本动作识别中的时序关系交叉Transformer | 论文 | HyperAI超神经