4 个月前

基于组件感知变换器的单阶段3D全身网格恢复

基于组件感知变换器的单阶段3D全身网格恢复

摘要

全身网格恢复旨在从单张图像中估计人体、面部和手部的3D参数。由于分辨率问题,即面部和手部通常位于极小的区域,使用单一网络完成这一任务具有挑战性。现有的方法通常先检测手部和面部,放大其分辨率以输入特定网络进行参数预测,最后融合结果。虽然这种复制粘贴的流程可以捕捉到面部和手部的细粒度细节,但在后期融合时难以恢复不同部分之间的连接,导致不合理的3D旋转和不自然的姿态。在本工作中,我们提出了一种用于表现性全身网格恢复的一阶段流程,命名为OSX,无需为每个部分单独设置网络。具体而言,我们设计了一个组件感知变压器(Component Aware Transformer, CAT),由全局身体编码器和局部面部/手部解码器组成。编码器预测身体参数并为解码器提供高质量的特征图;解码器通过特征级上采样-裁剪方案提取高分辨率的部分特定特征,并采用关键点引导的可变形注意力机制来精确估计手部和面部。整个流程简单而有效,无需任何手动后处理,并自然避免了不合理预测。全面的实验验证了OSX的有效性。最后,我们构建了一个大规模的上半身数据集(Upper-Body dataset, UBody),包含高质量的2D和3D全身注释。该数据集涵盖了在各种现实场景中部分可见的身体部位的人体,以弥合基本任务与下游应用之间的差距。

代码仓库

IDEA-Research/OSX
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwOSX
MPJPE: 74.7
PA-MPJPE: 45.1
3d-human-pose-estimation-on-ubodyOSX
PA-PVE-All: 42.2
PA-PVE-Face: 2.0
PA-PVE-Hands: 8.6
PVE-All: 81.9
PVE-Face: 21.2
PVE-Hands: 41.5
3d-human-reconstruction-on-ehfOSX
MPVPE: 70.8
PA V2V (mm), face: 6
PA V2V (mm), whole body: 48.7
3d-multi-person-mesh-recovery-on-agoraOSX
B-NMVE: 85.3
F-MVE: 36.2
FB-MVE: 122.8
FB-NMVE: 130.6
LH/RH-MVE: 45.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于组件感知变换器的单阶段3D全身网格恢复 | 论文 | HyperAI超神经