4 个月前

TDSM:三元扩散用于零样本动作识别中的骨架-文本匹配

TDSM:三元扩散用于零样本动作识别中的骨架-文本匹配

摘要

我们首先提出了一种基于扩散模型的零样本骨骼动作识别方法。在零样本骨骼动作识别中,将骨骼特征与动作标签的文本特征对齐对于准确预测未见过的动作至关重要。以往的方法主要集中在骨骼和文本潜在空间之间的直接对齐,但这些空间之间的模态差距阻碍了稳健的泛化学习。受到文本到图像扩散模型卓越性能的启发,我们利用其在不同模态之间对齐的能力,主要关注反向扩散过程中的训练,而不是其生成能力。基于此,我们的框架设计为一种三元组扩散骨骼-文本匹配(TDSM)方法,该方法通过反向扩散将骨骼特征与文本提示对齐,并将提示嵌入统一的骨骼-文本潜在空间以实现稳健匹配。为了增强区分能力,我们引入了一种新颖的三元组扩散(TD)损失函数,促使我们的TDSM纠正正确的骨骼-文本匹配,同时推开错误的匹配。实验结果表明,我们的TDSM在零样本设置下显著优于最新的先进方法,性能提升幅度从2.36个百分点到13.05个百分点不等,展示了通过有效的骨骼-文本匹配所实现的优越准确性和可扩展性。

代码仓库

KAIST-VICLab/TDSM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-skeletal-action-recognition-on-ntuTDSM
Accuracy (12 unseen classes): 56.03
Accuracy (5 unseen classes): 86.49
Random Split Accuracy: 88.88
zero-shot-skeletal-action-recognition-on-ntu-1TDSM
Accuracy (10 unseen classes): 74.15
Accuracy (24 unseen classes): 65.06
Random Split Accuracy: 69.47
zero-shot-skeletal-action-recognition-on-pkuTDSM
Random Split Accuracy: 70.76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TDSM:三元扩散用于零样本动作识别中的骨架-文本匹配 | 论文 | HyperAI超神经