
摘要
本文提出了一种简单而强大的方法,用于从单个RGB图像重建三维人体网格。最近的研究中,变换器(Transformer)已经有效地估计了整个网格顶点的非局部相互作用,而图模型也开始处理身体各部分之间的关系。尽管这些方法在三维人体网格重建方面取得了显著进展,但直接推断从二维输入图像编码的特征与每个顶点的三维坐标之间的关系仍然具有挑战性。为了解决这一问题,我们设计了一种简单的特征采样方案。其核心思想是在嵌入空间中根据点的引导进行特征采样,这些点是从三维网格顶点投影得到的结果(即地面真值)。这有助于模型在二维空间中更加关注与顶点相关的特征,从而实现自然的人体姿态重建。此外,我们应用了渐进式注意力掩码技术,即使在严重遮挡的情况下也能精确估计顶点之间的局部相互作用。基准数据集上的实验结果表明,所提出的方法有效提升了三维人体网格重建的性能。代码和模型已在以下网址公开发布:https://github.com/DCVL-3D/PointHMR_release。
代码仓库
DCVL-3D/PointHMR_release
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-freihand | PointHMR | PA-F@15mm: 0.984 PA-F@5mm: 0.720 PA-MPJPE: 6.1 PA-MPVPE: 6.6 |
| 3d-human-pose-estimation-on-3dpw | PointHMR | MPJPE: 73.9 MPVPE: 85.5 PA-MPJPE: 44.9 |
| 3d-human-pose-estimation-on-human36m | PointHMR | Average MPJPE (mm): 48.3 Multi-View or Monocular: Monocular PA-MPJPE: 32.9 |
| monocular-3d-human-pose-estimation-on-human3 | PointHMR | Average MPJPE (mm): 48.3 PA-MPJPE: 32.9 |