3 个月前

SPEC:通过估计的相机在自然场景中识别人员

SPEC:通过估计的相机在自然场景中识别人员

摘要

由于真实场景图像(in-the-wild images)缺乏相机参数信息,现有的三维人体姿态与形状(3D Human Pose and Shape, HPS)估计方法通常采用若干简化假设:弱透视投影、恒定的大焦距以及零相机旋转。然而,这些假设在实际中往往不成立。我们通过定量与定性分析表明,这些假设会导致重建的三维人体形状与姿态产生显著误差。为解决这一问题,我们提出SPEC——首个能够从单张图像中估计透视相机参数的真实场景三维HPS方法,并利用估计出的相机参数实现更精确的人体三维重建。首先,我们训练一个神经网络,根据输入图像估计视场角(field of view)、相机俯仰角(pitch)和翻滚角(roll)。我们设计了新颖的损失函数,显著提升了相机标定的精度,优于以往方法。随后,我们构建了一种新型网络架构,将估计得到的相机参数与图像特征进行拼接,并联合用于回归三维人体形状与姿态。在标准基准数据集3DPW以及两个更具挑战性、包含多样相机视角和变化焦距的新数据集上,SPEC均显著优于现有方法。具体而言,我们构建了一个新的、高度逼真的合成数据集SPEC-SYN,其中包含真实三维人体的标注;同时,我们还创建了一个全新的真实场景数据集SPEC-MTP,该数据集包含相机标定信息与高质量参考人体模型。定性和定量分析均证实:在推理阶段引入相机参数,能够显著提升人体三维重建的准确性。相关代码与数据集已开放,供科研使用,详见:https://spec.is.tue.mpg.de。

代码仓库

mkocabas/SPEC
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwSPEC
PA-MPJPE: 53.2
3d-human-pose-estimation-on-agoraSPEC
B-MPJPE: 112.3
B-MVE: 106.5
B-NMJE: 133.7
B-NMVE: 126.8
3d-human-pose-estimation-on-spec-mtpSPEC
W-MPJPE: 124.3
W-PVE: 147.1
3d-multi-person-pose-estimation-on-agoraSPEC
B-MPJPE: 112.3
B-MVE: 106.5
B-NMJE: 133.7
B-NMVE: 126.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SPEC:通过估计的相机在自然场景中识别人员 | 论文 | HyperAI超神经