4 个月前

多人3D姿态估计中的动态图推理

多人3D姿态估计中的动态图推理

摘要

多人3D姿态估计是一项具有挑战性的任务,因为存在遮挡和深度模糊问题,尤其是在人群场景中。为了解决这些问题,现有的大多数方法通过增强特征表示(例如使用图神经网络)或添加结构约束来建模身体上下文线索。然而,这些方法由于其单根节点公式化而不够鲁棒,即从预定义的图中的根节点解码3D姿态。在本文中,我们提出了一种名为GR-M3D的方法,该方法通过动态图推理(Dynamic Graph Reasoning, DGR)来建模多人3D姿态估计。在GR-M3D中,解码图是预测生成的而不是预先定义的。具体而言,首先生成多个数据图,并通过尺度和深度感知精炼模块(Scale and Depth Aware Refinement, SDAR)对其进行增强。然后从这些数据图中估计出每个人的多个根关键点和密集解码路径。基于此,通过分配路径权重给解码路径来构建动态解码图,而路径权重则是从那些增强的数据图中推断出来的。这一过程被称为动态图推理(DGR)。最后,根据每个检测到的人的动态解码图解码出3D姿态。GR-M3D能够根据输入数据隐式地调整解码图的结构,通过采用软路径权重使解码图对不同输入个体具有最佳适应性,并且比先前的方法更能处理遮挡和深度模糊问题。实验结果表明,所提出的自底向上方法甚至优于自顶向下的方法,并在三个3D姿态数据集上取得了最先进的结果。

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mGR-M3D
Average MPJPE (mm): 41.3
PA-MPJPE: 27.3
3d-multi-person-pose-estimation-absolute-onGR-M3D
3DPCK: 41.2
3d-multi-person-pose-estimation-on-cmuGR-M3D
Average MPJPE (mm): 57.9
3d-multi-person-pose-estimation-root-relativeGR-M3D
3DPCK: 84.6
AUC: 44.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多人3D姿态估计中的动态图推理 | 论文 | HyperAI超神经