
摘要
尽管在监督下的基于骨架的动作识别方面已经取得了显著进展,但零样本识别的挑战仍然相对未被充分探索。本文认为,仅依赖于标签级语义和全局骨架特征的对齐不足以有效地将局部一致的视觉知识从已知类别迁移到未知类别。为了解决这一局限性,我们引入了语言与骨架的部分感知统一表示(PURLS),以探索局部和全局尺度上的视觉-语义对齐。PURLS 引入了一个新的提示模块和一个新颖的分区模块,用于生成不同层次上对齐的文本和视觉表示。前者利用预训练的 GPT-3 从原始动作标签中推断出全局和局部(基于身体部位和时间间隔)运动的精细描述。后者采用自适应采样策略,将所有与给定描述在语义上相关的身体关节运动的视觉特征进行分组。我们的方法在多种骨架/语言骨干网络和三个大规模数据集上进行了评估,即 NTU-RGB+D 60、NTU-RGB+D 120 和新整理的数据集 Kinetics-skeleton 200。结果展示了 PURLS 的普遍性和优越性能,超过了先前基于骨架的方法和其他领域的标准基线。源代码可访问 https://github.com/azzh1/PURLS。
代码仓库
azzh1/purls
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-skeletal-action-recognition-on-ntu | PURLS | Accuracy (12 unseen classes): 40.99 Accuracy (5 unseen classes): 79.23 |
| zero-shot-skeletal-action-recognition-on-ntu-1 | PURLS | Accuracy (10 unseen classes): 71.95 Accuracy (24 unseen classes): 52.01 |