
摘要
近期关于无监督行人重识别(reID)的研究表明,基于未标注行人图像进行预训练,在下游reID任务上表现优于在ImageNet上进行预训练的方法。然而,这些已有的预训练方法专门针对reID任务设计,难以灵活适配其他行人分析任务。为此,本文提出一种名为VAL-PAT的新框架,旨在通过融合多模态信息,学习可迁移的表征以提升多种行人分析任务的性能。为训练该框架,我们引入三种学习目标:自监督对比学习、图文对比学习以及多属性分类。其中,自监督对比学习有助于模型捕捉行人的内在特征;图文对比学习引导模型关注行人的外观信息;而多属性分类任务则促使模型识别细粒度的行人属性,以挖掘更丰富的语义信息。我们首先在LUPerson-TA数据集上进行预训练,该数据集中的每张图像均附带文本描述和属性标注,随后将所学习到的表征迁移至多个下游任务,包括行人重识别、行人属性识别以及基于文本的行人检索。大量实验结果表明,所提出的框架能够有效学习通用的行人表征,在各类行人分析任务中均取得了优异且一致的性能表现。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-person-re-identification-on-12 | VAL-PAT | Rank-1: 67.5 mAP: 38.9 |
| unsupervised-person-re-identification-on-5 | VAL-PAT | MAP: 74.9 Rank-1: 86.1 |