
摘要
大多数基于视频的动作识别方法倾向于从整个视频中提取特征以识别动作。然而,杂乱的背景和非动作相关的运动限制了这些方法的性能,因为它们缺乏对人体运动的显式建模。随着人体姿态估计技术的快速发展,本文提出一种新方法,将人类动作识别视为姿态估计图的演化过程。与依赖视频中不准确的人体姿态不同,我们观察到姿态估计图(作为姿态估计的副产品)能够保留更丰富的身体信息,从而有助于动作识别。具体而言,姿态估计图的演化可分解为两类变化:一是热力图(如概率图)的演化,反映身体形状的变化;二是估计得到的二维人体姿态的演化,反映身体姿态的变化。考虑到热力图具有稀疏性,我们提出空间秩池化(spatial rank pooling)方法,用于聚合热力图的演化,生成表征身体形状演化的图像。由于身体形状演化图像无法区分身体各部位,我们进一步设计了体态引导采样(body-guided sampling)方法,用于聚合姿态演化信息,生成表征身体姿态演化的图像。通过深度卷积神经网络,我们挖掘两类图像之间的互补特性,以预测动作类别。在NTU RGB+D、UTD-MHAD和PennAction等多个数据集上的实验结果验证了所提方法的有效性,其性能优于大多数现有最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-ntu-rgbd | PoseMap (RGB+Pose) | Accuracy (CS): 91.7 Accuracy (CV): 95.2 |
| action-recognition-in-videos-on-ntu-rgbd-120 | Body Pose Evolution Map | Accuracy (Cross-Setup): 64.6 Accuracy (Cross-Subject): 66.9 |
| multimodal-activity-recognition-on-utd-mhad | PoseMap | Accuracy (CS): 94.5 |
| skeleton-based-action-recognition-on-ntu-rgbd-1 | Body Pose Evolution Map | Accuracy (Cross-Setup): 66.9% Accuracy (Cross-Subject): 64.6% |