Andrei ZanfirEduard Gabriel BazavanMihai ZanfirWilliam T. FreemanRahul SukthankarCristian Sminchisescu

摘要
我们提出了一种基于深度神经网络的方法,用于从输入的RGB图像中重建人体的三维姿态与形状。该方法依赖于一种近期提出的、具有高度表达能力的全身统计三维人体模型GHUM,并采用端到端训练方式,学习在自监督框架下重建该模型的姿态与形状状态。本方法的核心在于一种“学习如何学习与优化”的策略,称为HUmanNeural Descent(HUND)。该方法在训练模型参数时避免了二阶导数的计算,在测试阶段也无需进行代价高昂的状态梯度下降,从而能够高效地最小化语义可微渲染损失。相反,我们引入了新颖的循环迭代阶段来更新姿态与形状参数,不仅有效降低损失,还通过元正则化机制保障优化过程的稳定性和最终收敛性。HUND在训练与测试阶段之间具有对称性,使其成为首个原生支持多种运行模式(包括自监督模式)的三维人体感知架构。在多种测试场景中,HUND在H3.6M和3DPW等数据集上均取得了极具竞争力的性能表现,并能对野外采集的复杂图像实现高质量的三维重建。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | HUND (FS+SS) | MPJPE: 81.4 PA-MPJPE: 57.5 |
| 3d-human-pose-estimation-on-human36m | HUND (SS) | Average MPJPE (mm): 91.8 PA-MPJPE: 66 |