
摘要
我们提出XFormer,一种新型的人体网格与动作捕捉方法,仅需单目图像作为输入,即可在消费级CPU上实现实时性能。所提出的网络架构包含两个分支:关键点分支,用于根据2D关键点估计3D人体网格顶点;图像分支,直接从RGB图像特征中进行预测。本方法的核心是一个跨模态Transformer模块,通过建模2D关键点坐标与图像空间特征之间的注意力关系,实现两个分支间的信息交互。该架构设计巧妙,使得我们能够基于多种类型的数据集进行训练,包括带有2D/3D标注的图像、带有3D伪标签的图像,以及不附带图像的动捕数据集,从而显著提升了系统的精度与泛化能力。基于轻量级主干网络(MobileNetV3),该方法运行速度极快(单核CPU下超过30fps),同时保持了具有竞争力的精度。此外,当采用HRNet作为主干网络时,XFormer在Human3.6M和3DPW数据集上均达到了当前最优性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | XFormer (HRNet) | MPJPE: 75 MPVPE: 87.1 PA-MPJPE: 45.7 |
| 3d-human-pose-estimation-on-human36m | XFormer (HRNet) | Average MPJPE (mm): 52.6 PA-MPJPE: 35.2 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | XFormer (HRNet) | MPJPE: 109.8 PA-MPJPE: 64.5 |