
摘要
尽管在检测、实例分割和人体解析等感知任务中取得了显著进展,计算机在拥挤场景中视觉理解人类方面仍然表现不佳,例如群体行为分析、行人重识别和自动驾驶等领域。为此,模型需要全面感知多个人体图像中的语义信息和实例之间的差异,这一任务最近被定义为多人解析任务。本文介绍了一个新的大规模数据库“多人解析(MHP)”,用于算法开发和评估,并推动了在拥挤场景中理解人类的最先进水平。MHP 包含 25,403 幅精心注释的图像,涉及每幅图像中有 2 至 26 人,这些图像是从现实世界的各种视角、姿态、遮挡、互动和背景中捕捉到的,并带有 58 个细粒度的语义类别标签。我们进一步提出了一种新颖的深度嵌套对抗网络(Nested Adversarial Network, NAN)模型,用于多人解析。NAN 包含三个类似生成对抗网络(Generative Adversarial Network, GAN)的子网络,分别执行语义显著性预测、无实例解析和有实例聚类。这些子网络形成了一个嵌套结构,并经过精心设计以端到端的方式联合学习。NAN 在我们的 MHP 数据集以及多个其他数据集上始终优于现有的最先进解决方案,并作为强大的基线模型推动未来多人解析领域的研究。
代码仓库
open-mmlab/mmpose
pytorch
ZhaoJ9014/Multi-Human-Parsing
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-human-parsing-on-mhp-v10 | NAN | AP 0.5: 57.09% |
| multi-human-parsing-on-mhp-v20 | NAN | AP 0.5: 25.14% |
| multi-human-parsing-on-pascal-person-part | NAN | AP 0.5: 59.70% |