4 个月前

多语义融合模型用于广义零样本骨架动作识别

多语义融合模型用于广义零样本骨架动作识别

摘要

广义零样本骨架动作识别(GZSSAR)是计算机视觉领域的一个新挑战问题,它要求模型在没有任何训练样本的情况下识别动作。以往的研究仅利用动词短语的动作标签作为语义原型来学习从骨架动作到共享语义空间的映射。然而,动作标签的有限语义信息限制了骨架特征对未见过的动作的泛化能力。为了解决这一困境,我们提出了一种多语义融合(MSF)模型以提高GZSSAR的性能,该模型收集了两类类级别的文本描述(即动作描述和运动描述),作为辅助语义信息,增强可泛化的骨架特征的学习效果。具体而言,一个预训练的语言编码器将动作描述、运动描述和原始类别标签作为输入,以获取每个动作类别的丰富语义特征;而骨架编码器则用于提取骨架特征。随后,基于变分自编码器(VAE)的生成模块被用来学习骨架特征与语义特征之间的跨模态对齐。最后,构建了一个分类模块来识别输入样本的动作类别,在GZSSAR中采用了一个已见-未见分类门来预测样本是否来自已见过的动作类别。与先前模型相比的优越性能验证了所提出的MSF模型在GZSSAR上的有效性。

代码仓库

基准测试

基准方法指标
generalized-zero-shot-skeletal-actionMSF-GZSSAR
Harmonic Mean (12 unseen classes): 49.70
Harmonic Mean (5 unseen classes): 68.83
generalized-zero-shot-skeletal-action-1MSF-GZSSAR
Harmonic Mean (10 unseen classes): 57.40
Harmonic Mean (24 unseen classes): 52.40

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多语义融合模型用于广义零样本骨架动作识别 | 论文 | HyperAI超神经