3 个月前

MaskCLR:注意力引导的对比学习用于鲁棒的动作表征学习

MaskCLR:注意力引导的对比学习用于鲁棒的动作表征学习

摘要

基于电流互感器(current transformer)的骨骼动作识别模型通常仅依赖有限数量的关键点及低层次的运动模式来预测动作类别,这导致在骨骼结构发生微小扰动,或在训练与测试阶段使用不同姿态估计算法时,模型性能显著下降。本文提出一种新型的掩码对比学习方法——MaskCLR,用于提升骨骼动作识别的鲁棒性。我们设计了一种注意力引导的概率性掩码策略,主动遮蔽最具判别性的关键点,从而促使模型探索更广泛的关键点组合,增强对全局动作语义的感知能力。此外,我们提出一种多层次对比学习框架,强制模型在标准骨骼与遮蔽骨骼的表示之间保持类别可区分性,即同一类别的特征更加紧凑,不同类别间特征分布更加分散。该方法有助于模型聚焦于高层动作语义,而非低层关节的细微变化,且可无缝集成至各类基于Transformer的骨架动作识别模型中。为验证其通用性,我们将MaskCLR与三种Transformer骨干网络——原始Transformer、DSTFormer和STTFormer相结合。在NTU60、NTU120和Kinetics400三个基准数据集上的大量实验表明,MaskCLR在标准骨架及来自不同姿态估计算法的扰动骨架上均持续优于现有最先进方法,展现出更高的识别精度、更强的泛化能力与鲁棒性。项目主页:https://maskclr.github.io。

基准测试

基准方法指标
skeleton-based-action-recognition-on-ntu-rgbdMaskCLR
Accuracy (CS): 93.9
Accuracy (CV): 97.3
skeleton-based-action-recognition-on-ntu-rgbd-1MaskCLR
Accuracy (Cross-Setup): 89.5
Accuracy (Cross-Subject): 87.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MaskCLR:注意力引导的对比学习用于鲁棒的动作表征学习 | 论文 | HyperAI超神经