4 个月前

基于双网络的单目视频多人三维姿态估计

基于双网络的单目视频多人三维姿态估计

摘要

近年来,单目3D人体姿态估计取得了显著进展。大多数方法专注于单个人体,即在以目标人物中心为基准的人体中心坐标系中估计姿态。因此,这些方法不适用于多人体3D姿态估计,后者需要绝对坐标(例如,相机坐标)。此外,多人体姿态估计比单个人体姿态估计更具挑战性,因为存在人际遮挡和紧密的人际互动。现有的自上而下的多人体方法依赖于人体检测(即自上而下方法),因此容易受到检测错误的影响,在多人场景中无法产生可靠的姿态估计。同时,现有的不使用人体检测的自下而上的方法虽然不受检测错误的影响,但由于它们同时处理场景中的所有人,因此容易出错,特别是在处理小尺度人物时。为了应对所有这些挑战,我们提出将自上而下和自下而上的方法结合起来,以发挥各自的优势。我们的自上而下网络从图像块中的所有人而不是单一人物来估计关节位置,从而对可能的错误边界框具有更强的鲁棒性。我们的自下而上网络结合了基于人体检测的归一化热图(normalized heatmaps),使得网络在处理尺度变化时更加稳健。最后,来自自上而下和自下而上网络的3D姿态估计结果被输入到我们的集成网络中进行最终的3D姿态输出。为了弥补训练数据和测试数据之间的常见差距,我们在测试阶段进行了优化,通过高阶时间约束、重投影损失和骨骼长度正则化来精炼估计的3D人体姿态。我们的评估结果证明了所提方法的有效性。代码和模型可在以下地址获取:https://github.com/3dpose/3D-Multi-Person-Pose。

代码仓库

3dpose/3D-Multi-Person-Pose
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwDual network
PA-MPJPE: 61.7
3d-human-pose-estimation-on-human36mDual network (GTi)
Average MPJPE (mm): 34.95
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: Yes
3d-human-pose-estimation-on-human36mDual network
Average MPJPE (mm): 49.31
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-jtaDual network
F1(t=0.4m): 58.15
F1(t=0.8m): 69.32
F1(t=1.2m): 74.19
3d-multi-person-pose-estimation-root-relativeDual network
3DPCK: 89.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于双网络的单目视频多人三维姿态估计 | 论文 | HyperAI超神经