
摘要
基于骨架的零样本动作识别旨在根据已知骨架动作的学习先验和已知与未知类别共享的语义描述空间来识别未知的人类动作。然而,以往的研究主要集中在粗粒度层面建立已知骨架表示空间与语义描述空间之间的桥梁,忽略了这两个空间在细粒度层面的对齐,导致在区分高相似度动作类别时性能不佳。为了解决这些挑战,我们提出了一种新的方法,通过侧信息和双提示学习(Side information and dual-prompts learning)实现基于骨架的细粒度零样本动作识别(STAR)。具体而言,1)我们根据骨架的拓扑结构将其分解为多个部分,并引入关于人体运动多部分描述的侧信息,以实现骨架与语义空间在细粒度层面的对齐;2)我们设计了视觉属性提示和语义部分提示,分别提高了骨架空间内的类内紧凑性和语义空间内的类间可分性,从而区分高相似度的动作。广泛的实验表明,我们的方法在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集上的零样本学习(ZSL)和广义零样本学习(GZSL)设置中取得了最先进的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-skeletal-action-recognition-on-ntu | STAR | Accuracy (12 unseen classes): 45.10 Accuracy (5 unseen classes): 81.40 Random Split Accuracy: 77.50 |
| zero-shot-skeletal-action-recognition-on-ntu-1 | STAR | Accuracy (10 unseen classes): 63.30 Accuracy (24 unseen classes): 44.30 |
| zero-shot-skeletal-action-recognition-on-pku | STAR | Random Split Accuracy: 70.60 |