3 个月前

从野外密集场景中学习鲁棒的3D人体网格估计

从野外密集场景中学习鲁棒的3D人体网格估计

摘要

我们研究从真实场景中的拥挤人群图像中恢复单个人体的三维网格(3D human mesh)问题。尽管三维人体网格估计领域已取得显著进展,但现有方法在处理包含密集人群的测试输入时仍表现不佳。其失败原因主要有两点:第一,训练数据与测试数据之间存在领域差异(domain gap)。目前常用的动捕(motion capture)数据集虽能提供精确的三维标签用于训练,但缺乏人群场景数据,导致模型难以学习到对拥挤场景具有鲁棒性的目标人物图像特征。第二,现有方法通常对包含多个人的局部边界框内的特征图进行空间平均处理,这种平均操作会使得目标人物的特征与其他人物特征混杂,难以区分。为此,我们提出3DCrowdNet,首次专门针对真实场景中的拥挤人群场景设计,并通过解决上述两个关键问题,实现对三维人体网格的鲁棒估计。首先,我们采用无需依赖带有三维标签的动捕数据集的二维人体姿态估计方法进行训练,从而避免了领域差异问题。其次,我们提出一种基于关键点(joint-based)的回归器,能够有效区分目标人物与其他人物的特征。该回归器通过从目标人物关键点位置采样特征,并据此回归人体模型参数,从而在保持目标人物空间激活特性的前提下,增强其特征的可辨识性。因此,3DCrowdNet能够学习到以目标人物为中心的聚焦特征,有效抑制邻近人物的无关特征干扰。我们在多个公开基准数据集上进行了实验,结果在定量与定性层面均验证了3DCrowdNet在真实拥挤场景下的卓越鲁棒性。代码已开源,地址为:https://github.com/hongsukchoi/3DCrowdNet_RELEASE。

代码仓库

hongsukchoi/3dcrowdnet_release
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpw3DCrowdNet
MPJPE: 85.8
MPVPE: 108.5
PA-MPJPE: 55.8
3d-multi-person-human-pose-estimation-on3DCrowdNet (HigherHRNet)
3DPCK: 72.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从野外密集场景中学习鲁棒的3D人体网格估计 | 论文 | HyperAI超神经