
摘要
直接预测三维人体姿态和形状仍然是一个挑战,即使对于高度参数化的深度学习模型也是如此。从二维图像空间映射到预测空间非常困难:透视模糊性使得损失函数变得嘈杂,而训练数据又十分稀缺。在本文中,我们提出了一种新颖的方法(神经体拟合(Neural Body Fitting, NBF))。该方法在卷积神经网络(CNN)中集成了统计体模型,利用可靠的自下而上的语义身体部位分割和稳健的自上而下的体模型约束。NBF完全可微分,并且可以使用二维和三维注释进行训练。通过详细的实验,我们分析了模型各组件对性能的影响,特别是将部分分割作为显式的中间表示的使用,并提出了一种鲁棒且高效可训练的框架,用于从二维图像中估计三维人体姿态,在标准基准测试中取得了具有竞争力的结果。代码将在 http://github.com/mohomran/neural_body_fitting 上提供。
代码仓库
mohomran/neural_body_fitting
官方
tf
GitHub 中提及
andrewjong/SwapNet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | Neural Body Fitting (NBF) | PA-MPJPE: 59.9 |
| 3d-human-pose-estimation-on-humaneva-i | Ours | Mean Reconstruction Error (mm): 64 |
| monocular-3d-human-pose-estimation-on-human3 | Neural Body Fitting (NBF) | Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |
| monocular-3d-human-pose-estimation-on-human3 | Neural Body Fitting (NBF) | PA-MPJPE: 59.9 |