摘要

我们提出THUNDR，一种基于Transformer的深度神经网络方法，用于从单目RGB图像中重建人体的三维姿态与形状。本方法的核心在于引入了一种中间三维标记（3D marker）表示，旨在结合无模型输出架构的强大预测能力，以及统计人体表面模型（如GHUM）所具备的正则化与保持人体解剖学特性的优势——GHUM是一种近期提出的、具有高度表达能力的全身统计三维人体模型，可端到端训练。我们提出的新型基于Transformer的预测流程能够聚焦于图像中与任务相关的关键区域，支持自监督学习范式，并确保重建结果符合人体解剖学约束。在Human3.6M和3DPW数据集上，无论是完全监督还是自监督模型，THUNDR均在推断三维人体形状、关节位置及全局平移的任务中取得了当前最优的性能表现。此外，我们还观察到，该方法在野外采集的复杂人体姿态场景下，仍能实现非常稳健的三维重建效果。

源 PDF