4 个月前

面向统一文本的人检索:大规模多属性和语言搜索基准

面向统一文本的人检索:大规模多属性和语言搜索基准

摘要

本文介绍了一个用于基于文本的人脸检索的大规模多属性和语言搜索数据集,称为MALS,并探讨了在同一模型中同时进行属性识别和图像-文本匹配任务预训练的可行性。具体而言,MALS包含1,510,330个图像-文本对,其规模约为现有CUHK-PEDES数据集的37.5倍,所有图像均标注了27个属性。考虑到隐私问题和标注成本,我们利用现成的扩散模型生成了该数据集。为了验证从生成数据中学习的可行性,我们开发了一种新的联合属性提示学习和文本匹配学习(APTM)框架,考虑了属性和文本之间的共享知识。如其名称所示,APTM包含一个属性提示学习流和一个文本匹配学习流。(1)属性提示学习通过利用属性提示实现图像与属性的对齐,从而增强文本匹配学习。(2)文本匹配学习有助于细粒度细节的表示学习,并反过来促进属性提示学习。大量实验验证了在MALS上进行预训练的有效性,通过APTM在三个具有挑战性的现实世界基准测试中实现了最先进的检索性能。特别是,APTM在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的Recall@1准确率分别提高了6.96%、7.68%和16.95%,且提升幅度显著。

代码仓库

Shuyu-XJTU/APTM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
nlp-based-person-retrival-on-cuhk-pedesAPTM
R@1: 76.53
R@10: 94.15
R@5: 90.04
mAP: 66.91
pedestrian-attribute-recognition-on-pa-100kAPTM
Accuracy: 80.17
text-based-person-retrieval-on-icfg-pedesAPTM
R@1: 68.51
mAP: 41.22
text-based-person-retrieval-on-rstpreid-1APTM
R@1: 67.50
R@10: 91.45
R@5: 85.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向统一文本的人检索:大规模多属性和语言搜索基准 | 论文 | HyperAI超神经