3 个月前

基于骨架的动作识别:时空Transformer网络

基于骨架的动作识别:时空Transformer网络

摘要

基于骨骼的人体动作识别近年来受到广泛关注,因其骨骼数据在光照变化、身体尺度、动态摄像机视角以及复杂背景等条件下均表现出较强的鲁棒性。特别是时空图卷积网络(Spatial-Temporal Graph Convolutional Networks, ST-GCN)在学习非欧几里得数据(如骨骼图结构)中的空间与时间依赖关系方面展现出显著有效性。然而,如何高效编码三维骨骼数据中隐含的潜在信息,尤其是从关节运动模式及其相关性中提取有效特征,仍然是一个开放性难题。为此,本文提出一种新型的时空Transformer网络(Spatial-Temporal Transformer, ST-TR),该模型采用Transformer的自注意力机制来建模关节之间的依赖关系。在所提出的ST-TR架构中,引入空间自注意力模块(Spatial Self-Attention, SSA)以捕捉帧内不同身体部位间的内部交互关系,同时设计时间自注意力模块(Temporal Self-Attention, TSA)以建模帧间的时间相关性。两个模块构成双流网络结构,其性能在三个大规模数据集——NTU-RGB+D 60、NTU-RGB+D 120以及Kinetics Skeleton 400上进行了系统评估,结果一致优于现有骨干网络。在仅使用关节坐标作为输入的情况下,所提出的ST-TR在所有数据集上均达到当前最优(state-of-the-art)性能;当进一步引入骨骼信息后,其性能与现有最先进方法相当,验证了该模型在高效建模骨骼动作时序与空间结构方面的优越能力。

代码仓库

Chiaraplizz/ST-TR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
skeleton-based-action-recognition-on-kineticsST-TR-agcn
Accuracy: 37.4
skeleton-based-action-recognition-on-ntu-rgbdST-TR-agcn
Accuracy (CS): 89.9
Accuracy (CV): 96.1
skeleton-based-action-recognition-on-ntu-rgbd-1ST-TR-agcn
Accuracy (Cross-Setup): 84.7%
Accuracy (Cross-Subject): 82.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于骨架的动作识别:时空Transformer网络 | 论文 | HyperAI超神经