3 个月前

STAR-Transformer:一种用于人体动作识别的时空交叉注意力Transformer

STAR-Transformer:一种用于人体动作识别的时空交叉注意力Transformer

摘要

在动作识别任务中,尽管结合时空视频与骨骼特征能够提升识别性能,但仍需分别构建模型并对跨模态数据进行特征表示的平衡处理。为解决上述问题,本文提出一种名为时空跨模态(Spatio-Temporal Aligned Representation, STAR)-Transformer的新型架构,能够有效将两种跨模态特征统一表示为可识别的向量。首先,从输入的视频序列和骨骼序列中,分别提取视频帧作为全局网格令牌(global grid tokens),骨骼信息则转换为关节点图令牌(joint map tokens)。随后,这些令牌被聚合为多类别令牌,并输入至STAR-Transformer模型中。STAR-Transformer的编码器层由全自注意力(Full Self-Attention, FAttn)模块与本文提出的锯齿状时空注意力(Zigzag Spatio-Temporal Attention, ZAttn)模块构成;解码器层同样由FAttn模块与所提出的二值化时空注意力(Binary Spatio-Temporal Attention, BAttn)模块组成。通过合理配置FAttn、ZAttn与BAttn模块的组合结构,STAR-Transformer能够学习到高效且富有表达力的时空多特征表示。在Penn-Action、NTU RGB+D 60以及NTU RGB+D 120三个公开数据集上的实验结果表明,所提方法相较于现有最先进方法,在动作识别性能上实现了显著且具有竞争力的提升。

基准测试

基准方法指标
action-recognition-in-videos-on-ntu-rgbdSTAR-Transformer (RGB + Pose)
Accuracy (CS): 92.0
Accuracy (CV): 96.5
action-recognition-in-videos-on-ntu-rgbd-120STAR-Transformer (RGB + Pose)
Accuracy (Cross-Setup): 92.7
Accuracy (Cross-Subject): 90.3
action-recognition-on-penn-actionSTAR-Transformer (RGB + Pose)
Accuracy: 98.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
STAR-Transformer:一种用于人体动作识别的时空交叉注意力Transformer | 论文 | HyperAI超神经