3 个月前

基于动态人体关节亲和力的视频三维姿态估计

基于动态人体关节亲和力的视频三维姿态估计

摘要

图卷积网络(Graph Convolution Network, GCN)在视频中3D人体姿态估计任务中已取得成功应用。然而,传统GCN通常基于固定的人体关节关联结构(即基于人体骨骼的拓扑关系),这种固定结构限制了网络对视频中复杂时空姿态变化的适应能力。为缓解这一问题,本文提出一种新型动态图网络(Dynamical Graph Network, DG-Net),能够动态识别人体关节间的关联关系,并通过自适应学习视频中的时空关节关系来实现3D姿态估计。与传统图卷积不同,我们引入了动态空间/时间图卷积(Dynamical Spatial/Temporal Graph Convolution, DSG/DTG),根据视频中各关节之间的空间距离或时间运动相似性,为每个视频样本动态构建空间与时间维度上的关节关联图。由此,网络可有效识别在空间上更接近或运动模式一致的关节,从而在将2D姿态提升至3D姿态的过程中,有效缓解深度模糊性与运动不确定性问题。我们在三个主流基准数据集(Human3.6M、HumanEva-I 和 MPI-INF-3DHP)上进行了大量实验,结果表明,DG-Net在仅使用较少输入帧和更小模型规模的情况下,性能优于多项近期先进方法(SOTA),验证了其高效性与优越性。

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mDG-Net (T=4 GTi)
Average MPJPE (mm): 31.2
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: Yes
3d-human-pose-estimation-on-human36mDG-Net (T=4)
Average MPJPE (mm): 45.3
3d-human-pose-estimation-on-humaneva-iDG-Net (T=4)
Mean Reconstruction Error (mm): 19.5
3d-human-pose-estimation-on-mpi-inf-3dhpDG-Net (T=4)
AUC: 53.8
MPJPE: 76
pose-estimation-on-leeds-sports-posesDG-Net (T=4)
PCK: 87.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于动态人体关节亲和力的视频三维姿态估计 | 论文 | HyperAI超神经