
摘要
我们首先提出了一种基于扩散模型的零样本骨骼动作识别方法。在零样本骨骼动作识别中,将骨骼特征与动作标签的文本特征对齐对于准确预测未见过的动作至关重要。以往的方法主要集中在骨骼和文本潜在空间之间的直接对齐,但这些空间之间的模态差距阻碍了稳健的泛化学习。受到文本到图像扩散模型卓越性能的启发,我们利用其在不同模态之间对齐的能力,主要关注反向扩散过程中的训练,而不是其生成能力。基于此,我们的框架设计为一种三元组扩散骨骼-文本匹配(TDSM)方法,该方法通过反向扩散将骨骼特征与文本提示对齐,并将提示嵌入统一的骨骼-文本潜在空间以实现稳健匹配。为了增强区分能力,我们引入了一种新颖的三元组扩散(TD)损失函数,促使我们的TDSM纠正正确的骨骼-文本匹配,同时推开错误的匹配。实验结果表明,我们的TDSM在零样本设置下显著优于最新的先进方法,性能提升幅度从2.36个百分点到13.05个百分点不等,展示了通过有效的骨骼-文本匹配所实现的优越准确性和可扩展性。
代码仓库
KAIST-VICLab/TDSM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-skeletal-action-recognition-on-ntu | TDSM | Accuracy (12 unseen classes): 56.03 Accuracy (5 unseen classes): 86.49 Random Split Accuracy: 88.88 |
| zero-shot-skeletal-action-recognition-on-ntu-1 | TDSM | Accuracy (10 unseen classes): 74.15 Accuracy (24 unseen classes): 65.06 Random Split Accuracy: 69.47 |
| zero-shot-skeletal-action-recognition-on-pku | TDSM | Random Split Accuracy: 70.76 |