BaradelFabien ; ArmandoMatthieu ; GalaaouiSalma ; BrégierRomain ; WeinzaepfelPhilippe ; RogezGrégory ; LucasThomas

摘要
我们介绍了Multi-HMR,这是一种强大的单次模型,可以从单个RGB图像中恢复多人的3D人体网格。该模型的预测涵盖了整个人体,即包括手部和面部表情,使用了SMPL-X参数化模型以及在相机坐标系中的3D位置。我们的模型通过预测粗略的2D热图来检测人物位置,这些热图基于标准视觉变换器(Vision Transformer, ViT)骨干网络生成的特征。然后,该模型利用一种新的交叉注意力模块——人体预测头(Human Prediction Head, HPH),对每个检测到的人物的整体特征进行查询,以预测其全身姿态、形状和3D位置。由于直接从现有数据中学习手部和面部的精细姿态在单次预测中较为困难,我们引入了CUFFS数据集,即“全身主体的特写帧”(Close-Up Frames of Full-Body Subjects)数据集,其中包含靠近相机且手部姿势多样的人物。我们展示了将该数据集纳入训练数据可以进一步提高预测效果,特别是对手部的预测。此外,如果可用的话,Multi-HMR还可以选择性地考虑相机内参,通过为每个图像标记编码相机光线方向来实现这一点。这种简洁的设计在全身和仅身体部分的基准测试中均表现出色:即使在$448{\times}448$分辨率的图像上使用ViT-S骨干网络也能获得快速且具有竞争力的模型,而更大的模型和更高的分辨率则能取得最先进的结果。
代码仓库
naver/multi-hmr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | Multi-HMR | MPJPE: 61.4 MPVPE: 75.9 PA-MPJPE: 41.7 |
| 3d-human-pose-estimation-on-ubody | Multi-HMR | PA-PVE-All: 23.6 PA-PVE-Face: 1.8 PA-PVE-Hands: 7.0 PVE-All: 56.4 PVE-Face: 19.3 PVE-Hands: 24.9 |
| 3d-human-reconstruction-on-ehf | Multi-HMR | MPVPE: 44.2 PA V2V (mm), face: 5.5 PA V2V (mm), whole body: 32.7 |
| 3d-multi-person-human-pose-estimation-on | Multi-HMR | 3DPCK: 89.5 |
| 3d-multi-person-mesh-recovery-on-agora | Multi-HMR | FB-MVE: 95.9 FB-NMVE: 102.0 |
| human-mesh-recovery-on-bedlam | Multi-HMR | PVE-All: 76.80 |