
摘要
以人类为中心的感知(例如检测、分割、姿态估计和属性分析)一直是计算机视觉领域的长期问题。本文介绍了一种统一且多功能的框架(HQNet),用于单阶段多人多任务以人类为中心的感知(HCP)。我们的方法侧重于学习一种统一的人类查询表示,称为“人类查询”(Human Query),该表示能够捕捉个体人物的复杂实例级特征,并解开复杂的多人场景。尽管不同的HCP任务已经分别得到了充分研究,但由于缺乏一个全面的基准数据集,文献中尚未充分利用单阶段多任务学习来解决HCP任务。为了解决这一不足,我们提出了COCO-UniHuman基准数据集,以支持模型开发和全面评估。实验结果表明,所提出的方法在多任务HCP模型中达到了最先进的性能,并且在与特定任务的HCP模型相比时也表现出竞争力。此外,我们的实验还强调了“人类查询”对新HCP任务的适应性,从而展示了其强大的泛化能力。代码和数据可在https://github.com/lishuhuai527/COCO-UniHuman 获取。
代码仓库
lishuhuai527/coco-unihuman
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-instance-segmentation-on-ochuman | HQNet (ResNet-50) | AP: 31.1 |
| human-instance-segmentation-on-ochuman | HQNet (ViT-L) | AP: 38.8 |
| pose-estimation-on-ochuman | HQNet (ResNet-50) | Test AP: 40.0 |
| pose-estimation-on-ochuman | HQNet (ViT-L) | Test AP: 45.6 |