3 个月前

单目图像中的多人3D人体姿态估计

单目图像中的多人3D人体姿态估计

摘要

从单张图像中进行多人3D人体姿态估计是一项极具挑战性的任务,尤其在真实场景(in-the-wild)下,由于缺乏3D标注数据,问题更为复杂。本文提出HG-RCNN,一种基于Mask R-CNN架构的网络,并融合了Hourglass网络结构的优势,用于实现多人3D人体姿态估计。该方法采用两阶段策略:首先在每个感兴趣区域(Region of Interest, RoI)内估计2D关键点,随后将这些关键点提升至3D空间。最后,通过弱透视投影假设,结合焦距与根关节平移量的联合优化,将估计得到的3D姿态映射到相机坐标系中。所提出的HG-RCNN结构简洁且模块化,无需依赖任何多人3D姿态标注数据集。尽管模型结构简单,HG-RCNN在MuPoTS-3D数据集上仍取得了当前最优的性能表现,同时能够准确估计出位于相机坐标系中的3D人体姿态。

基准测试

基准方法指标
3d-multi-person-human-pose-estimation-onHG-RCNN
3DPCK: 74.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供