4 个月前

《智人:人类视觉模型的基础》

《智人:人类视觉模型的基础》

摘要

我们介绍了Sapiens,这是一系列针对四个基本的人类中心视觉任务的模型——2D姿态估计、身体部位分割、深度估计和表面法线预测。我们的模型原生支持1K高分辨率推理,并且通过简单微调在超过3亿张野生环境中的人类图像上预训练的模型,可以非常容易地适应各个任务。我们观察到,在相同的计算预算下,使用精心挑选的人类图像数据集进行自监督预训练,可以显著提升一系列人类中心任务的性能。生成的模型在野生环境数据中表现出卓越的泛化能力,即使标签数据稀缺或完全合成也是如此。我们简单的模型设计还带来了可扩展性——随着参数数量从0.3亿增加到20亿,各任务的模型性能得到了提升。Sapiens在各种人类中心基准测试中始终超越现有的基线模型。我们在Humans-5K(姿态)上的表现比之前的最先进方法提高了7.6 mAP,在Humans-2K(部位分割)上提高了17.1 mIoU,在Hi4D(深度)上相对RMSE提高了22.4%,在THuman2(法线)上相对角度误差降低了53.5%。

代码仓库

基准测试

基准方法指标
2d-human-pose-estimation-on-coco-wholebody-1Sapiens-2B
WB: 74.4
body: 79.2
face: 91.2
foot: 84.1
hand: 70.4
2d-human-pose-estimation-on-coco-wholebody-1Sapiens-0.3B
WB: 62.0
body: 66.4
face: 87.1
foot: 67.3
hand: 58.1
keypoint-detection-on-cocoSapiens-1B
Validation AP: 82.1
keypoint-detection-on-cocoSapiens-2B
Validation AP: 82.2
keypoint-detection-on-cocoSapiens-0.3B
Validation AP: 79.6
keypoint-detection-on-cocoSapiens-0.6B
Validation AP: 81.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
《智人:人类视觉模型的基础》 | 论文 | HyperAI超神经