4 个月前

SkateFormer:用于人体动作识别的骨骼-时间Transformer

SkateFormer:用于人体动作识别的骨骼-时间Transformer

摘要

基于骨架的动作识别是一种根据关节坐标及其在骨架数据中的连接关系对人类动作进行分类的技术,广泛应用于各种场景中。尽管图卷积网络(GCNs)已被提出用于表示为图的骨架数据,但它们的受域受限于关节连接性,导致性能有限。为了克服这一限制,近期的研究引入了基于变压器的方法。然而,捕捉所有帧中所有关节之间的相关性需要大量的内存资源。为此,我们提出了一种新颖的方法——骨骼时间变压器(Skeletal-Temporal Transformer, SkateFormer),该方法根据不同的骨骼时间关系类型(Skeletal-Temporal Relation, Skate-Type)对关节和帧进行划分,并在每个划分内执行骨骼时间自注意力机制(Skeletal-Temporal Self-Attention, Skate-MSA)。我们将关键的骨骼时间关系分为四种不同的类型:(i) 基于物理邻近和远距离关节的两种骨骼关系类型;(ii) 基于邻近和远距离帧的两种时间关系类型。通过这种特定分区的注意力策略,我们的SkateFormer能够在高效计算的前提下,以适应不同动作的方式选择性地关注对动作识别至关重要的关键关节和帧。大量实验验证了我们在多个基准数据集上的SkateFormer优于最近的最先进方法。

代码仓库

KAIST-VICLab/SkateFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
human-interaction-recognition-on-ntu-rgb-dSkateFormer
Accuracy (Cross-Subject): 97.1
Accuracy (Cross-View): 99.3
human-interaction-recognition-on-ntu-rgb-d-1SkateFormer
Accuracy (Cross-Setup): 93.2
Accuracy (Cross-Subject): 92.3
skeleton-based-action-recognition-on-n-uclaSkateFormer
Accuracy: 98.3
skeleton-based-action-recognition-on-ntu-rgbdSkateFormer
Accuracy (CS): 93.5
Accuracy (CV): 97.8
Ensembled Modalities: 4
skeleton-based-action-recognition-on-ntu-rgbd-1SkateFormer
Accuracy (Cross-Setup): 91.4
Accuracy (Cross-Subject): 89.8
Ensembled Modalities: 4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SkateFormer:用于人体动作识别的骨骼-时间Transformer | 论文 | HyperAI超神经