
摘要
尽管单目3D姿态估计在公开数据集上似乎已经取得了非常准确的结果,但其泛化能力却常常被忽视。在这项工作中,我们对现有方法进行了系统性的评估,发现当在不同相机、人体姿态和外观上进行测试时,这些方法的误差显著增大。为了解决这一问题,我们引入了VirtualPose,这是一种两阶段学习框架,旨在利用该任务特有的“免费午餐”,即以零成本生成无限数量的姿态和相机用于训练模型。为此,第一阶段将图像转换为抽象几何表示(AGR),第二阶段则将其映射到3D姿态。该框架从两个方面解决了泛化问题:(1) 第一阶段可以在多样化的2D数据集上进行训练,以降低过拟合到有限外观的风险;(2) 第二阶段可以在由大量虚拟相机和姿态合成的多样化AGR上进行训练。VirtualPose在不使用任何基准测试中的配对图像和3D姿态的情况下,超越了现有的最先进方法,为实际应用铺平了道路。代码可在https://github.com/wkom/VirtualPose 获取。
代码仓库
wkom/virtualpose
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-multi-person-pose-estimation-absolute-on | VirtualPose | 3DPCK: 44 |
| 3d-multi-person-pose-estimation-on-cmu | VirtualPose | Average MPJPE (mm): 58.9 |