
摘要
本文同时解决了传统基于骨架的动作识别中的三个限制问题:骨架检测和跟踪错误、目标动作种类不足以及个体和帧级别的动作识别。研究引入了点云深度学习范式到动作识别中,并提出了一种统一框架及一种称为结构关键点池化的新型深度神经网络架构。该方法基于数据结构(如骨架中固有的)的先验知识,以级联的方式稀疏聚合关键点特征,每个关键点所属的实例和帧被考虑在内,从而增强了对输入错误的鲁棒性。其较少约束且无需跟踪的架构使得由人体骨架和非人体物体轮廓组成的时间序列关键点可以高效地作为输入3D点云进行处理,并扩展了目标动作的多样性。此外,我们提出了一个受结构关键点池化启发的池化切换技巧。该技巧在训练和推理阶段之间切换池化核,仅使用视频级别的动作标签即可在弱监督条件下检测个体和帧级别的动作。这一技巧使我们的训练方案能够自然地引入新的数据增强方法,即混合从不同视频中提取的多个点云。实验结果全面验证了所提方法的有效性,该方法在克服上述限制方面优于现有的基于骨架的动作识别和时空动作定位方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-on-skeleton-mimetics | Structured Keypoint Pooling | Accuracy: 21.2 |
| activity-recognition-on-rwf-2000 | Structured Keypoint Pooling | Accuracy: 93.4 |
| skeleton-based-action-recognition-on-hmdb51 | Structured Keypoint Pooling | Accuracy: 70.9 |
| skeleton-based-action-recognition-on-kinetics | Structured Keypoint Pooling (PPNv2 skeletons+objects) | Accuracy: 52.3 |
| skeleton-based-action-recognition-on-kinetics | Structured Keypoint Pooling (HRNet skeletons) | Accuracy: 50.3 |
| skeleton-based-action-recognition-on-kinetics | Structured Keypoint Pooling (PPNv2 skeletons) | Accuracy: 43.1 |
| skeleton-based-action-recognition-on-ucf101 | Structured Keypoint Pooling | Accuracy: 87.8 |
| video-classification-on-hockey-fight | Structured Keypoint Pooling | Accuracy: 99.5 |
| weakly-supervised-temporal-action-6 | Structured Keypoint Pooling | mAP@0.2: 61.8 |