8 个月前

摘要

以人类为中心的视觉任务因其广泛的应用而吸引了越来越多的研究关注。本文旨在从大量未标记的人类图像中学习一种通用的人类表示，以便最大程度地惠及下游的以人类为中心的任务。我们称这种方法为SOLIDER，即语义可控自监督学习框架（Semantic cOntrollable seLf-supervisEd lEaRning）。与现有的自监督学习方法不同，SOLIDER利用了来自人类图像的先验知识来构建伪语义标签，并将更多的语义信息引入所学的表示中。同时，我们注意到不同的下游任务通常需要不同比例的语义信息和外观信息。例如，人体解析需要更多的语义信息，而人员重识别则需要更多的外观信息来进行身份验证。因此，单一的学习表示无法满足所有需求。为了解决这一问题，SOLIDER引入了一个带有语义控制器的条件网络。模型训练完成后，用户可以向控制器发送值以生成具有不同语义信息比例的表示，从而适应下游任务的不同需求。最后，SOLIDER在六个下游以人类为中心的视觉任务上进行了验证。它在这些任务上的表现优于现有方法，并建立了新的基准。代码已发布在https://github.com/tinyvision/SOLIDER。

源 PDF