4 个月前

掩码运动预测器是强大的3D动作表示学习器

掩码运动预测器是强大的3D动作表示学习器

摘要

在3D人体动作识别中,有限的监督数据使得难以充分发挥强大网络(如变压器网络)的建模潜力。因此,研究人员一直在积极探讨有效的自监督预训练策略。在这项工作中,我们表明,与流行的预训练任务不同,即在人体关节上执行掩码自组件重建,显式的上下文运动建模对于学习有效的特征表示以实现3D动作识别的成功至关重要。具体而言,我们提出了掩码运动预测(Masked Motion Prediction, MAMP)框架。该框架以掩码时空骨架序列作为输入,并预测被掩码的人体关节对应的时域运动。考虑到骨架序列的高度时间冗余性,在我们的MAMP框架中,运动信息还充当了经验性的语义丰富性先验,指导掩码过程,促进对语义丰富的时域区域给予更多关注。在NTU-60、NTU-120和PKU-MMD数据集上的大量实验表明,所提出的MAMP预训练方法显著提升了采用的标准变压器网络的性能,在没有额外复杂技巧的情况下达到了最先进的结果。我们的MAMP源代码可在https://github.com/maoyunyao/MAMP 获取。

代码仓库

maoyunyao/mamp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
skeleton-based-action-recognition-on-ntu-rgbdMAMP
Accuracy (CS): 93.1
Accuracy (CV): 97.5
skeleton-based-action-recognition-on-ntu-rgbd-1MAMP
Accuracy (Cross-Setup): 91.3
Accuracy (Cross-Subject): 90.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
掩码运动预测器是强大的3D动作表示学习器 | 论文 | HyperAI超神经