
摘要
基于骨架的多实体动作识别是一项具有挑战性的任务,旨在识别涉及多个不同实体的交互动作或群体活动。现有的针对个体的模型在这一任务中往往表现不佳,这是由于实体骨架之间固有的分布差异导致了骨干网络优化效果不佳。为此,我们提出了一种基于凸包自适应移位的多实体动作识别方法(CHASE),该方法可以缓解实体间的分布差距并减少后续骨干网络的偏差。具体而言,CHASE包括一个可学习参数化的网络和一个辅助目标。通过两个关键组件,该参数化网络实现了对骨架序列的合理且样本自适应的重新定位。首先,隐式凸包约束自适应移位(Implicit Convex Hull Constrained Adaptive Shift)确保新的坐标系原点位于骨架凸包内。其次,系数学习模块(Coefficient Learning Block)提供了一种轻量级的参数化映射,将骨架序列映射到其在凸组合中的特定系数。此外,为了指导该网络进行差异最小化的优化,我们提出了小批量成对最大均值差异(Mini-batch Pair-wise Maximum Mean Discrepancy)作为额外的目标函数。CHASE作为一种样本自适应归一化方法,可以缓解实体间的分布差异,从而减少数据偏差并提高后续分类器在多实体场景下的动作识别性能。我们在六个数据集上进行了广泛的实验,包括NTU Mutual 11/26、H2O、Assembly101、Collective Activity和Volleyball等数据集,结果一致验证了我们的方法能够无缝适配单个实体骨干网络,并在其多实体场景下提升性能。我们的代码已公开发布在https://github.com/Necolizer/CHASE 。
代码仓库
Necolizer/CHASE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-action-recognition-on-assembly101 | CHASE(CTR-GCN) | Actions Top-1: 28.03 |
| group-activity-recognition-on-collective | CHASE(CTR-GCN) | Accuracy: 89.61 |
| group-activity-recognition-on-volleyball | CHASE(CTR-GCN) | Accuracy: 92.89 |
| human-interaction-recognition-on-ntu-rgb-d | CHASE(CTR-GCN) | Accuracy (Cross-Subject): 96.5 Accuracy (Cross-View): 98.8 |
| human-interaction-recognition-on-ntu-rgb-d-1 | CHASE(CTR-GCN) | Accuracy (Cross-Setup): 92.3 Accuracy (Cross-Subject): 91.3 |
| skeleton-based-action-recognition-on-h2o-2 | CHASE(STSA-Net) | Accuracy: 94.77 |