3 个月前

基于多模态信息监督的可迁移行人表征学习

基于多模态信息监督的可迁移行人表征学习

摘要

近期关于无监督行人重识别(reID)的研究表明,基于未标注行人图像进行预训练,在下游reID任务上表现优于在ImageNet上进行预训练的方法。然而,这些已有的预训练方法专门针对reID任务设计,难以灵活适配其他行人分析任务。为此,本文提出一种名为VAL-PAT的新框架,旨在通过融合多模态信息,学习可迁移的表征以提升多种行人分析任务的性能。为训练该框架,我们引入三种学习目标:自监督对比学习、图文对比学习以及多属性分类。其中,自监督对比学习有助于模型捕捉行人的内在特征;图文对比学习引导模型关注行人的外观信息;而多属性分类任务则促使模型识别细粒度的行人属性,以挖掘更丰富的语义信息。我们首先在LUPerson-TA数据集上进行预训练,该数据集中的每张图像均附带文本描述和属性标注,随后将所学习到的表征迁移至多个下游任务,包括行人重识别、行人属性识别以及基于文本的行人检索。大量实验结果表明,所提出的框架能够有效学习通用的行人表征,在各类行人分析任务中均取得了优异且一致的性能表现。

代码仓库

基准测试

基准方法指标
unsupervised-person-re-identification-on-12VAL-PAT
Rank-1: 67.5
mAP: 38.9
unsupervised-person-re-identification-on-5VAL-PAT
MAP: 74.9
Rank-1: 86.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多模态信息监督的可迁移行人表征学习 | 论文 | HyperAI超神经