
摘要
基于骨架的动作识别是一种根据关节坐标及其在骨架数据中的连接关系对人类动作进行分类的技术,广泛应用于各种场景中。尽管图卷积网络(GCNs)已被提出用于表示为图的骨架数据,但它们的受域受限于关节连接性,导致性能有限。为了克服这一限制,近期的研究引入了基于变压器的方法。然而,捕捉所有帧中所有关节之间的相关性需要大量的内存资源。为此,我们提出了一种新颖的方法——骨骼时间变压器(Skeletal-Temporal Transformer, SkateFormer),该方法根据不同的骨骼时间关系类型(Skeletal-Temporal Relation, Skate-Type)对关节和帧进行划分,并在每个划分内执行骨骼时间自注意力机制(Skeletal-Temporal Self-Attention, Skate-MSA)。我们将关键的骨骼时间关系分为四种不同的类型:(i) 基于物理邻近和远距离关节的两种骨骼关系类型;(ii) 基于邻近和远距离帧的两种时间关系类型。通过这种特定分区的注意力策略,我们的SkateFormer能够在高效计算的前提下,以适应不同动作的方式选择性地关注对动作识别至关重要的关键关节和帧。大量实验验证了我们在多个基准数据集上的SkateFormer优于最近的最先进方法。
代码仓库
KAIST-VICLab/SkateFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-interaction-recognition-on-ntu-rgb-d | SkateFormer | Accuracy (Cross-Subject): 97.1 Accuracy (Cross-View): 99.3 |
| human-interaction-recognition-on-ntu-rgb-d-1 | SkateFormer | Accuracy (Cross-Setup): 93.2 Accuracy (Cross-Subject): 92.3 |
| skeleton-based-action-recognition-on-n-ucla | SkateFormer | Accuracy: 98.3 |
| skeleton-based-action-recognition-on-ntu-rgbd | SkateFormer | Accuracy (CS): 93.5 Accuracy (CV): 97.8 Ensembled Modalities: 4 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | SkateFormer | Accuracy (Cross-Setup): 91.4 Accuracy (Cross-Subject): 89.8 Ensembled Modalities: 4 |