
摘要
图卷积网络(Graph Convolution Network, GCN)在视频中3D人体姿态估计任务中已取得成功应用。然而,传统GCN通常基于固定的人体关节关联结构(即基于人体骨骼的拓扑关系),这种固定结构限制了网络对视频中复杂时空姿态变化的适应能力。为缓解这一问题,本文提出一种新型动态图网络(Dynamical Graph Network, DG-Net),能够动态识别人体关节间的关联关系,并通过自适应学习视频中的时空关节关系来实现3D姿态估计。与传统图卷积不同,我们引入了动态空间/时间图卷积(Dynamical Spatial/Temporal Graph Convolution, DSG/DTG),根据视频中各关节之间的空间距离或时间运动相似性,为每个视频样本动态构建空间与时间维度上的关节关联图。由此,网络可有效识别在空间上更接近或运动模式一致的关节,从而在将2D姿态提升至3D姿态的过程中,有效缓解深度模糊性与运动不确定性问题。我们在三个主流基准数据集(Human3.6M、HumanEva-I 和 MPI-INF-3DHP)上进行了大量实验,结果表明,DG-Net在仅使用较少输入帧和更小模型规模的情况下,性能优于多项近期先进方法(SOTA),验证了其高效性与优越性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | DG-Net (T=4 GTi) | Average MPJPE (mm): 31.2 Multi-View or Monocular: Monocular Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-human36m | DG-Net (T=4) | Average MPJPE (mm): 45.3 |
| 3d-human-pose-estimation-on-humaneva-i | DG-Net (T=4) | Mean Reconstruction Error (mm): 19.5 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | DG-Net (T=4) | AUC: 53.8 MPJPE: 76 |
| pose-estimation-on-leeds-sports-poses | DG-Net (T=4) | PCK: 87.5% |