4 个月前

CLIFF:在完整帧中携带位置信息以进行人体姿态和形状估计

CLIFF:在完整帧中携带位置信息以进行人体姿态和形状估计

摘要

自上而下的方法在3D人体姿态和形状估计领域占据主导地位,因为它们与人体检测解耦,使研究人员能够专注于核心问题。然而,这些方法的第一步——裁剪,从一开始就丢弃了位置信息,导致无法准确预测原始相机坐标系统中的全局旋转。为了解决这一问题,我们提出了一种将完整帧中的位置信息(Carry Location Information in Full Frames, CLIFF)引入该任务的方法。具体而言,我们将裁剪图像特征与其边界框信息拼接在一起,以向CLIFF提供更多的整体特征。我们通过更宽广的全帧视角计算2D重投影损失,模拟图像中人物的投影过程。借助全局位置感知信息的输入和监督,CLIFF能够直接预测全局旋转,并生成更精确的关节姿态。此外,我们基于CLIFF提出了一种伪真实注释器,它为野外2D数据集提供了高质量的3D注释,并为基于回归的方法提供了关键的全程监督。广泛的实验表明,在多个流行基准测试中,CLIFF显著优于先前的方法,并在AGORA排行榜(SMPL算法赛道)上取得了第一名的成绩。代码和数据可在https://github.com/huawei-noah/noah-research/tree/master/CLIFF 获取。

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwCLIFF (HR-W48)
MPJPE: 69
MPVPE: 81.2
PA-MPJPE: 43
3d-human-pose-estimation-on-emdbCLIFF
Average MPJAE (deg): 23.0933
Average MPJAE-PA (deg): 21.6265
Average MPJPE (mm): 103.134
Average MPJPE-PA (mm): 68.7969
Average MVE (mm): 122.884
Average MVE-PA (mm): 81.3275
Jitter (10m/s^3): 55.4525
3d-human-pose-estimation-on-human36mCLIFF (HR-W48)
Average MPJPE (mm): 47.1
human-mesh-recovery-on-bedlamBEDLAM-CLIFF
PVE-All: 94.60
human-mesh-recovery-on-bedlamBEDLAM-CLIFF+
PVE-All: 87.60
unsupervised-3d-human-pose-estimation-onCLIFF (HR-W48)
PA-MPJPE: 32.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIFF:在完整帧中携带位置信息以进行人体姿态和形状估计 | 论文 | HyperAI超神经