
摘要
手势作为非语言交流的一种形式,自17世纪以来在理论上已得到确立。然而,其对视觉艺术的相关性仅偶有提及。这主要是由于传统上需要手工处理的数据量庞大,令人望而却步。随着数字化的稳步进展,越来越多的历史文物已被编目并公之于众,从而产生了对具有相似身体构型或姿态的艺术史主题进行自动检索的需求。由于艺术领域的风格变化显著不同于现有的现实世界人体姿态估计数据集,这带来了新的挑战。本文提出了一种新颖的方法来估计艺术历史图像中的人体姿态。与以往尝试通过预训练模型或风格迁移来弥合领域差距的工作不同,我们建议采用半监督学习方法进行物体检测和关键点检测。此外,我们还引入了一个全新的领域特定艺术数据集,该数据集包括人体的边界框和关键点注释。我们的方法在性能上显著优于使用预训练模型或风格迁移的方法。
代码仓库
tibhannover/iart-semi-pose
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-human-pose-estimation-on | HRNet-W32 (trained on COCO 2017 with 0 % style-transferred Material) | mAP: 25.25 mAP@0.5: 31.73 mAP@0.75: 28.10 |
| semi-supervised-human-pose-estimation-on | HRNet-W32 (trained on COCO 2017 with 100 % style-transferred Material) | mAP: 25.18 mAP@0.5: 31.67 mAP@0.75: 28.13 |
| semi-supervised-human-pose-estimation-on | HRNet-W32 (trained on PeopleArt) | mAP: 29.71 mAP@0.5: 36.37 mAP@0.75: 32.72 |
| semi-supervised-human-pose-estimation-on | HRNet-W32 (trained on COCO 2017 with 50 % style-transferred Material) | mAP: 24.13 mAP@0.5: 30.52 mAP@0.75: 26.65 |
| semi-supervised-human-pose-estimation-on | HRNet-W32 | mAP: 52.58 mAP@0.5: 63.92 mAP@0.75: 57.35 |