3 个月前

基于骨架的动作识别生成式动作描述提示

基于骨架的动作识别生成式动作描述提示

摘要

基于骨骼的动作识别近年来受到广泛关注。现有的骨骼动作识别方法通常被建模为一类独热编码(one-hot)分类任务,未能充分挖掘动作之间的语义关联。例如,“比出胜利手势”与“竖起大拇指”均为手部动作,二者的主要区别在于手部运动方式的不同。这一信息在动作类别的独热编码中是不可见的,但却可以通过动作描述得以揭示。因此,在训练过程中引入动作描述,有望促进表示学习的优化。本文提出一种生成式动作描述提示(Generative Action-description Prompts, GAP)方法,用于骨骼动作识别。具体而言,我们采用预训练的大规模语言模型作为知识引擎,自动生成动作中各身体部位运动的文本描述;并设计了一种多模态训练框架,利用文本编码器为不同身体部位生成特征向量,同时以这些文本特征作为监督信号,指导骨骼编码器进行动作表征学习。实验结果表明,所提出的GAP方法在不增加推理阶段计算开销的前提下,显著优于多种基线模型。在多个主流骨骼动作识别基准数据集上,包括NTU RGB+D、NTU RGB+D 120和NW-UCLA,GAP均取得了新的最优性能(state-of-the-art)。相关源代码已公开,地址为:https://github.com/MartinXM/GAP。

代码仓库

martinxm/gap
官方
pytorch
GitHub 中提及
maclong01/STEP-CATFormer
pytorch
GitHub 中提及
martinxm/lst
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
skeleton-based-action-recognition-on-n-uclaLST
Accuracy: 97.2
skeleton-based-action-recognition-on-ntu-rgbdLST
Accuracy (CS): 92.9
Accuracy (CV): 97
Ensembled Modalities: 4
skeleton-based-action-recognition-on-ntu-rgbd-1LST
Accuracy (Cross-Setup): 91.1
Accuracy (Cross-Subject): 89.9
Ensembled Modalities: 4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于骨架的动作识别生成式动作描述提示 | 论文 | HyperAI超神经