Mihai ZanfirAndrei ZanfirEduard Gabriel BazavanWilliam T. FreemanRahul SukthankarCristian Sminchisescu

摘要
我们提出THUNDR,一种基于Transformer的深度神经网络方法,用于从单目RGB图像中重建人体的三维姿态与形状。本方法的核心在于引入了一种中间三维标记(3D marker)表示,旨在结合无模型输出架构的强大预测能力,以及统计人体表面模型(如GHUM)所具备的正则化与保持人体解剖学特性的优势——GHUM是一种近期提出的、具有高度表达能力的全身统计三维人体模型,可端到端训练。我们提出的新型基于Transformer的预测流程能够聚焦于图像中与任务相关的关键区域,支持自监督学习范式,并确保重建结果符合人体解剖学约束。在Human3.6M和3DPW数据集上,无论是完全监督还是自监督模型,THUNDR均在推断三维人体形状、关节位置及全局平移的任务中取得了当前最优的性能表现。此外,我们还观察到,该方法在野外采集的复杂人体姿态场景下,仍能实现非常稳健的三维重建效果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | THUNDR | MPJPE: 74.8 PA-MPJPE: 51.5 |
| 3d-human-pose-estimation-on-3dpw | THUNDR (WS) | MPJPE: 86.8 PA-MPJPE: 59.9 |
| 3d-human-pose-estimation-on-human36m | THUNDR (WS) | Average MPJPE (mm): 87 PA-MPJPE: 62.2 |
| 3d-human-pose-estimation-on-human36m | THUNDR | Average MPJPE (mm): 55 PA-MPJPE: 39.8 |