Rawal KhirodkarTimur BagautdinovJulieta MartinezSu ZhaoenAustin JamesPeter SelednikStuart AndersonShunsuke Saito

摘要
我们介绍了Sapiens,这是一系列针对四个基本的人类中心视觉任务的模型——2D姿态估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理,并且通过简单微调在超过3亿张野生环境中的人类图像上预训练的模型,可以非常容易地适应各个任务。我们观察到,在相同的计算预算下,使用精心挑选的人类图像数据集进行自监督预训练,可以显著提升一系列人类中心任务的性能。生成的模型在野生环境数据中表现出卓越的泛化能力,即使标签数据稀缺或完全合成也是如此。我们简单的模型设计还带来了可扩展性——随着参数数量从0.3亿增加到20亿,各任务的模型性能得到了提升。Sapiens在各种人类中心基准测试中始终超越现有的基线模型。我们在Humans-5K(姿态)上的表现比之前的最先进方法提高了7.6 mAP,在Humans-2K(部位分割)上提高了17.1 mIoU,在Hi4D(深度)上相对RMSE提高了22.4%,在THuman2(法线)上相对角度误差降低了53.5%。
代码仓库
facebookresearch/sapiens
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-coco-wholebody-1 | Sapiens-2B | WB: 74.4 body: 79.2 face: 91.2 foot: 84.1 hand: 70.4 |
| 2d-human-pose-estimation-on-coco-wholebody-1 | Sapiens-0.3B | WB: 62.0 body: 66.4 face: 87.1 foot: 67.3 hand: 58.1 |
| keypoint-detection-on-coco | Sapiens-1B | Validation AP: 82.1 |
| keypoint-detection-on-coco | Sapiens-2B | Validation AP: 82.2 |
| keypoint-detection-on-coco | Sapiens-0.3B | Validation AP: 79.6 |
| keypoint-detection-on-coco | Sapiens-0.6B | Validation AP: 81.2 |