
摘要
在现实场景中,人类行为往往呈现出长尾分布特征。这使得现有基于骨架的动作识别方法——这些方法大多基于均衡数据集设计——在面对长尾分布时性能显著下降。近年来,针对图像与视频的长尾学习已涌现出诸多研究工作。然而,由于缺乏对关键时空运动模式的充分考虑,尤其是针对特定模态的方法(如数据增强)往往难以直接迁移至骨架数据,导致其效果不理想。为此,鉴于人体部位在空间聚集性动作中的关键作用,本文聚焦于混合增强策略,提出一种新颖方法——Shap-Mix,通过挖掘尾部类别具有代表性的运动模式,有效提升长尾学习性能。具体而言,我们首先设计了一种高效的时空混合策略,用于骨架数据,以增强特征表示质量。随后,提出一种基于显著性引导的混合机制,该机制由基于Shapley值的显著性估计方法与面向尾部类别的混合策略共同构成。该方法能够有效保留少数类样本在混合数据中的显著运动区域,显式建立关键身体结构线索与高层语义之间的关联。在三个大规模骨架数据集上的大量实验表明,所提方法在长尾与均衡设置下均取得了显著的性能提升。项目代码与相关资源已公开,访问地址为:https://jhang2020.github.io/Projects/Shap-Mix/Shap-Mix.html。
代码仓库
JHang2020/Shap-Mix
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-ntu-rgbd | Shap-Mix | Accuracy (CS): 93.7 Accuracy (CV): 97.1 Ensembled Modalities: 4 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | Shap-Mix | Accuracy (Cross-Setup): 91.7 Accuracy (Cross-Subject): 90.4 Ensembled Modalities: 4 |