
摘要
基于文本的人像搜索旨在根据给定的文本描述检索指定的人像图像。解决这一具有挑战性任务的关键在于学习强大的多模态表示。为此,我们提出了一种关系感知和敏感度感知的表示学习方法(RaSa),包括两个新颖的任务:关系感知学习(RA)和敏感度感知学习(SA)。一方面,现有方法在不加区分的情况下聚类所有正样本对的表示,忽略了弱正样本对(即文本和配对图像之间存在噪声对应关系)导致的噪声问题,从而引发过拟合学习。RA通过引入一种新的正样本关系检测任务(即学习区分强正样本对和弱正样本对)来降低过拟合风险。另一方面,现有方法通常通过数据增强来学习不变表示(即对某些变换不敏感),以提高表示的鲁棒性。除此之外,我们还通过SA鼓励表示感知到敏感变换(即学习检测替换的词语),从而进一步提升表示的鲁棒性。实验结果表明,RaSa在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的Rank@1指标分别优于现有的最先进方法6.94%、4.45%和15.35%。代码可在以下地址获取:https://github.com/Flame-Chasers/RaSa。
代码仓库
flame-chasers/rasa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| nlp-based-person-retrival-on-cuhk-pedes | RaSa | R@1: 76.51 R@10: 94.25 R@5: 90.29 mAP: 69.38 |
| text-based-person-retrieval-on-icfg-pedes | RaSa | R@1: 65.28 R@10: 85.12 R@5: 80.4 mAP: 41.29 |
| text-based-person-retrieval-on-rstpreid-1 | RaSa | R@1: 66.90 R@10: 91.35 R@5: 86.50 mAP: 52.31 |