
摘要
基于文本到图像的人重识别(TIReID)是跨模态社区中的一个引人关注的话题,其目标是根据文本查询检索目标人物。尽管已提出多种TIReID方法并取得了令人鼓舞的性能,但这些方法隐含假设训练图像-文本对是正确对齐的,这在实际场景中并不总是成立。实际上,由于图像质量低下和标注错误,图像-文本对不可避免地存在部分相关甚至错误相关的情况,即噪声对应(Noisy Correspondence, NC)。为了解决这一问题,我们提出了一种新颖的鲁棒双嵌入方法(Robust Dual Embedding, RDE),该方法即使在存在NC的情况下也能学习到鲁棒的视觉-语义关联。具体而言,RDE包含两个主要组件:1)一个自信共识划分(Confident Consensus Division, CCD)模块,该模块利用双嵌入模块的双重粒度决策来获得一组共识性的干净训练数据,从而使模型能够学习正确的、可靠的视觉-语义关联;2)一种三元组对齐损失(Triplet Alignment Loss, TAL),该损失将传统的三元组排序损失从最难的负样本放宽到所有负样本的对数指数上界,从而防止模型在NC下崩溃,并且能够专注于难负样本以实现更好的性能。我们在三个公开基准数据集CUHK-PEDES、ICFG-PEDES和RSTPReID上进行了广泛的实验,以评估我们RDE方法的性能和鲁棒性。我们的方法在这三个数据集上无论是否加入合成噪声对应均达到了最先进的结果。代码可在https://github.com/QinYang79/RDE获取。
代码仓库
QinYang79/RDE
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| nlp-based-person-retrival-on-cuhk-pedes | RDE | R@1: 75.94 R@10: 94.12 R@5: 90.63 mAP: 67.56 mINP: 51.44 |
| text-based-person-retrieval-on-icfg-pedes | RDE | R@1: 67.68 R@10: 87.36 R@5: 82.47 mAP: 40.06 mINP: 7.87 |
| text-based-person-retrieval-on-rstpreid-1 | RDE | R@1: 65.35 R@10: 89.90 R@5: 83.95 mAP: 50.88 mINP: 28.08 |
| text-based-person-retrieval-with-noisy | RDE | Rank 10: 93.63 Rank-1: 74.46 Rank-5: 89.42 mAP: 66.13 mINP: 49.66 |
| text-based-person-retrieval-with-noisy-1 | RDE | Rank 1: 66.54 Rank-10: 86.70 Rank-5: 81.70 mAP: 39.08 mINP: 7.55 |
| text-based-person-retrieval-with-noisy-2 | RDE | Rank 1: 64.45 Rank 10: 90.00 Rank 5: 83.50 mAP: 49.78 mINP: 27.43 |