3 个月前

基于共识的优化方法在相机坐标系下的三维人体姿态估计

基于共识的优化方法在相机坐标系下的三维人体姿态估计

摘要

三维人体姿态估计通常被视为相对于根关节(如髋部)估计三维姿态的任务。与此不同,本文提出了一种基于相机坐标系的三维人体姿态估计方法,该方法能够有效融合二维标注数据与三维姿态信息,并实现直观的多视角泛化。为此,我们将问题建模为视锥空间(view frustum space)中的姿态估计,将绝对深度预测与关节间的相对深度估计解耦。最终的三维预测结果通过逆相机投影在相机坐标系中获得。基于此框架,我们进一步提出一种基于一致性(consensus-based)的优化算法,用于从未标定的多视角图像中进行姿态预测,且仅需单一的单目训练流程。尽管该方法在一定程度上依赖于训练阶段的相机内参,但其仍能在具有不同内参的相机上实现收敛,从而在尺度因子范围内获得一致且合理的估计结果。在多个知名三维人体姿态数据集上的实验表明,本方法显著优于现有技术水平,尤其在最常用的基准测试中,预测误差降低了32%。此外,我们在绝对姿态位置误差(absolute pose position error)方面也取得了优异表现:单目估计平均误差为80毫米,多视角估计平均误差为51毫米。

代码仓库

dluvizon/3d-pose-consensus
官方
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-human36mPose Consensus (monocular)
Average MPJPE (mm): 52
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mPose Consensus (multi-view, est. calib.)
Average MPJPE (mm): 45
Multi-View or Monocular: Multi-View
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mPose Consensus (multi-view, GT calib.)
Average MPJPE (mm): 39
Multi-View or Monocular: Multi-View
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-mpi-inf-3dhpPose Consensus (monocular)
AUC: 42.1
MPJPE: 112.1
PCK: 80.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于共识的优化方法在相机坐标系下的三维人体姿态估计 | 论文 | HyperAI超神经