CaiZhongang ; YinWanqi ; ZengAiling ; WeiChen ; SunQingping ; WangYanjun ; PangHui En ; MeiHaiyi ; ZhangMingyuan ; ZhangLei ; LoyChen Change ; YangLei ; LiuZiwei

摘要
表达性人体姿态和形状估计(EHPS)统一了身体、手部和面部的动作捕捉,具有广泛的应用前景。尽管已取得令人鼓舞的进展,当前最先进的方法仍然主要依赖于有限的训练数据集。在本研究中,我们探讨了将EHPS扩展到首个通用基础模型(命名为SMPLer-X),该模型采用了ViT-Huge作为主干网络,并使用来自多样化数据源的多达450万个实例进行训练。借助大数据和大型模型,SMPLer-X在各种测试基准上表现出色,并且在未见过的环境中也展现出极佳的迁移能力。1) 在数据扩展方面,我们对32个EHPS数据集进行了系统性的研究,涵盖了单一数据集训练模型无法应对的多种场景。更重要的是,通过从广泛的基准测试过程中获得的洞见,我们优化了训练方案并选择了能够显著提升EHPS能力的数据集。2) 在模型扩展方面,我们利用视觉变换器研究了EHPS中模型规模的扩展规律。此外,我们的微调策略使SMPLer-X能够转换为专门模型,从而实现进一步的性能提升。值得注意的是,我们的基础模型SMPLer-X在包括AGORA(107.2毫米NMVE)、UBody(57.4毫米PVE)、EgoBody(63.6毫米PVE)和EHF(未经微调的情况下达到62.3毫米PVE)在内的七个基准测试中持续取得最先进水平的结果。主页:https://caizhongang.github.io/projects/SMPLer-X/
代码仓库
wqyin/smplest-x
pytorch
GitHub 中提及
caizhongang/SMPLer-X
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | SMPLer-X | MPJPE: 75.2 |
| 3d-human-pose-estimation-on-ubody | SMPLer-X | PA-PVE-All: 31.9 PA-PVE-Face: 2.8 PA-PVE-Hands: 10.3 PVE-All: 57.5 PVE-Face: 21.6 PVE-Hands: 40.2 |
| 3d-human-reconstruction-on-ehf | SMPLer-X | MPVPE: 62.4 PA V2V (mm), whole body: 37.1 |
| 3d-multi-person-mesh-recovery-on-agora | SMPLer-X | B-NMVE: 68.3 F-MVE: 29.9 FB-MVE: 99.7 FB-NMVE: 107.2 LH/RH-MVE: 39.3 |