4 个月前

超越表象:面向语义的人类中心视觉任务自监督学习框架

超越表象:面向语义的人类中心视觉任务自监督学习框架

摘要

以人类为中心的视觉任务因其广泛的应用而吸引了越来越多的研究关注。本文旨在从大量未标记的人类图像中学习一种通用的人类表示,以便最大程度地惠及下游的以人类为中心的任务。我们称这种方法为SOLIDER,即语义可控自监督学习框架(Semantic cOntrollable seLf-supervisEd lEaRning)。与现有的自监督学习方法不同,SOLIDER利用了来自人类图像的先验知识来构建伪语义标签,并将更多的语义信息引入所学的表示中。同时,我们注意到不同的下游任务通常需要不同比例的语义信息和外观信息。例如,人体解析需要更多的语义信息,而人员重识别则需要更多的外观信息来进行身份验证。因此,单一的学习表示无法满足所有需求。为了解决这一问题,SOLIDER引入了一个带有语义控制器的条件网络。模型训练完成后,用户可以向控制器发送值以生成具有不同语义信息比例的表示,从而适应下游任务的不同需求。最后,SOLIDER在六个下游以人类为中心的视觉任务上进行了验证。它在这些任务上的表现优于现有方法,并建立了新的基准。代码已发布在https://github.com/tinyvision/SOLIDER。

代码仓库

DengpanFu/LUPerson
pytorch
GitHub 中提及
hasanirtiza/Pedestron
pytorch
GitHub 中提及
tinyvision/SOLIDER
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
pedestrian-attribute-recognition-on-pa-100kSOLIDER
Accuracy: 86.38
pedestrian-detection-on-citypersonsSOLIDER
Heavy MR^-2: 39.4
Reasonable MR^-2: 9.7
person-re-identification-on-market-1501SOLIDER (RK)
Rank-1: 96.7
mAP: 95.6
person-re-identification-on-market-1501SOLIDER
Rank-1: 96.9
mAP: 93.9
person-re-identification-on-msmt17SOLIDER (with re-ranking)
Rank-1: 91.7
mAP: 86.5
person-re-identification-on-msmt17SOLIDER (without re-ranking)
Rank-1: 90.7
mAP: 77.1
person-search-on-cuhk-sysuSOLIDER
MAP: 95.5
Top-1: 95.8
person-search-on-prwSOLIDER
Top-1: 86.7
mAP: 59.8
pose-estimation-on-cocoSOLIDER (swin-B)
AP: 76.6
AR: 81.5
semantic-segmentation-on-lip-valSOLIDER
mIoU: 60.50%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越表象:面向语义的人类中心视觉任务自监督学习框架 | 论文 | HyperAI超神经