WangYizhou ; WuYixuan ; TangShixiang ; HeWeizhen ; GuoXun ; ZhuFeng ; BaiLei ; ZhaoRui ; WuJian ; HeTong ; OuyangWanli

摘要
以人类为中心的感知任务,例如行人检测、基于骨架的动作识别和姿态估计,在元宇宙和体育分析等领域有着广泛的应用。近期,开发能够惠及多种以人类为中心的感知任务的基础模型成为研究热点。尽管许多以人类为中心的基础模型已经取得成功,但它们尚未探索三维视觉和视觉-语言任务,并且需要针对特定任务进行微调。这些限制制约了它们在更多下游任务和场景中的应用。为了解决这些问题,我们提出了Hulk,这是首个多模态以人类为中心的通用模型,能够在无需针对特定任务进行微调的情况下处理二维视觉、三维视觉、基于骨架和视觉-语言任务。实现这一目标的关键在于将各种特定任务的头部模块压缩为两个通用头部模块:一个用于离散表示(如语言),另一个用于连续表示(如位置坐标)。这两个头部模块的输出可以进一步组合成四种不同的输入和输出模态。这种统一的表示方法使Hulk能够将多样化的以人类为中心的任务视为模态转换,从而在广泛的任务中整合知识。对Hulk在涵盖8种以人类为中心的任务的12个基准数据集上的全面评估表明,我们提出的方法具有优越性,在11个基准数据集中达到了最先进的性能。代码可在https://github.com/OpenGVLab/Hulk 获取。
代码仓库
opengvlab/hulk
官方
pytorch
GitHub 中提及
opengvlab/humanbench
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | Hulk(ViT-B) | MPJPE: 67 MPVPE: 79.8 PA-MPJPE: 39.9 |
| 3d-human-pose-estimation-on-3dpw | Hulk(ViT-L) | MPJPE: 66.3 MPVPE: 77.4 PA-MPJPE: 38.5 |
| human-part-segmentation-on-cihp | Hulk(Finetune, ViT-B) | Mean IoU: 71.26 |
| human-part-segmentation-on-cihp | Hulk(Finetune, ViT-L) | Mean IoU: 72.68 |
| human-part-segmentation-on-human3-6m | Hulk(Finetune, ViT-L) | mIoU: 69.89 |
| human-part-segmentation-on-human3-6m | Hulk(Finetune, ViT-B) | mIoU: 68.56 |
| object-detection-on-crowdhuman-full-body | Hulk(Finetune, ViT-L) | AP: 93 mMR: 36.5 |
| object-detection-on-crowdhuman-full-body | Hulk(Finetune, ViT-B) | AP: 92.4 mMR: 40.7 |
| pedestrian-attribute-recognition-on-pa-100k | Hulk(Finetune, ViT-B) | Accuracy: 87.85 |
| pedestrian-attribute-recognition-on-pa-100k | Hulk(Finetune, ViT-L) | Accuracy: 88.97 |
| pedestrian-attribute-recognition-on-rapv2 | Hulk(Finetune, ViT-L) | Accuracy: 85.86 |
| pedestrian-attribute-recognition-on-rapv2 | Hulk(Finetune, ViT-B) | Accuracy: 85.26 |
| pose-estimation-on-aic | Hulk(Finetune, ViT-L) | AP: 37.1 |
| pose-estimation-on-aic | Hulk(Finetune, ViT-B) | AP: 35.6 |
| pose-estimation-on-coco | Hulk(Finetune, ViT-L) | AP: 78.7 |
| pose-estimation-on-coco | Hulk(Finetune, ViT-B) | AP: 77.5 |
| semantic-segmentation-on-lip-val | Hulk(Finetune, ViT-B) | mIoU: 63.98% |
| semantic-segmentation-on-lip-val | Hulk(Finetune, ViT-L) | mIoU: 66.02% |
| skeleton-based-action-recognition-on-ntu-rgbd | Hulk(Finetune, ViT-B) | Accuracy (CS): 94 |
| skeleton-based-action-recognition-on-ntu-rgbd | Hulk(Finetune, ViT-L) | Accuracy (CS): 94.3 |