4 个月前

RaSa:面向关系和敏感性的文本表示学习用于基于文本的人脸搜索

RaSa:面向关系和敏感性的文本表示学习用于基于文本的人脸搜索

摘要

基于文本的人像搜索旨在根据给定的文本描述检索指定的人像图像。解决这一具有挑战性任务的关键在于学习强大的多模态表示。为此,我们提出了一种关系感知和敏感度感知的表示学习方法(RaSa),包括两个新颖的任务:关系感知学习(RA)和敏感度感知学习(SA)。一方面,现有方法在不加区分的情况下聚类所有正样本对的表示,忽略了弱正样本对(即文本和配对图像之间存在噪声对应关系)导致的噪声问题,从而引发过拟合学习。RA通过引入一种新的正样本关系检测任务(即学习区分强正样本对和弱正样本对)来降低过拟合风险。另一方面,现有方法通常通过数据增强来学习不变表示(即对某些变换不敏感),以提高表示的鲁棒性。除此之外,我们还通过SA鼓励表示感知到敏感变换(即学习检测替换的词语),从而进一步提升表示的鲁棒性。实验结果表明,RaSa在CUHK-PEDES、ICFG-PEDES和RSTPReid数据集上的Rank@1指标分别优于现有的最先进方法6.94%、4.45%和15.35%。代码可在以下地址获取:https://github.com/Flame-Chasers/RaSa。

代码仓库

flame-chasers/rasa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
nlp-based-person-retrival-on-cuhk-pedesRaSa
R@1: 76.51
R@10: 94.25
R@5: 90.29
mAP: 69.38
text-based-person-retrieval-on-icfg-pedesRaSa
R@1: 65.28
R@10: 85.12
R@5: 80.4
mAP: 41.29
text-based-person-retrieval-on-rstpreid-1RaSa
R@1: 66.90
R@10: 91.35
R@5: 86.50
mAP: 52.31

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供