4 个月前

Multi-HMR:单次多人全身人体网格恢复

Multi-HMR:单次多人全身人体网格恢复

摘要

我们介绍了Multi-HMR,这是一种强大的单次模型,可以从单个RGB图像中恢复多人的3D人体网格。该模型的预测涵盖了整个人体,即包括手部和面部表情,使用了SMPL-X参数化模型以及在相机坐标系中的3D位置。我们的模型通过预测粗略的2D热图来检测人物位置,这些热图基于标准视觉变换器(Vision Transformer, ViT)骨干网络生成的特征。然后,该模型利用一种新的交叉注意力模块——人体预测头(Human Prediction Head, HPH),对每个检测到的人物的整体特征进行查询,以预测其全身姿态、形状和3D位置。由于直接从现有数据中学习手部和面部的精细姿态在单次预测中较为困难,我们引入了CUFFS数据集,即“全身主体的特写帧”(Close-Up Frames of Full-Body Subjects)数据集,其中包含靠近相机且手部姿势多样的人物。我们展示了将该数据集纳入训练数据可以进一步提高预测效果,特别是对手部的预测。此外,如果可用的话,Multi-HMR还可以选择性地考虑相机内参,通过为每个图像标记编码相机光线方向来实现这一点。这种简洁的设计在全身和仅身体部分的基准测试中均表现出色:即使在$448{\times}448$分辨率的图像上使用ViT-S骨干网络也能获得快速且具有竞争力的模型,而更大的模型和更高的分辨率则能取得最先进的结果。

代码仓库

naver/multi-hmr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwMulti-HMR
MPJPE: 61.4
MPVPE: 75.9
PA-MPJPE: 41.7
3d-human-pose-estimation-on-ubodyMulti-HMR
PA-PVE-All: 23.6
PA-PVE-Face: 1.8
PA-PVE-Hands: 7.0
PVE-All: 56.4
PVE-Face: 19.3
PVE-Hands: 24.9
3d-human-reconstruction-on-ehfMulti-HMR
MPVPE: 44.2
PA V2V (mm), face: 5.5
PA V2V (mm), whole body: 32.7
3d-multi-person-human-pose-estimation-onMulti-HMR
3DPCK: 89.5
3d-multi-person-mesh-recovery-on-agoraMulti-HMR
FB-MVE: 95.9
FB-NMVE: 102.0
human-mesh-recovery-on-bedlamMulti-HMR
PVE-All: 76.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Multi-HMR:单次多人全身人体网格恢复 | 论文 | HyperAI超神经