
摘要
基于文本到图像的人再识别(ReID)旨在使用文本描述来搜索包含感兴趣人员的图像。然而,由于显著的模态差异和文本描述中较大的类内变异,文本到图像的ReID仍然是一个具有挑战性的问题。为此,本文提出了一种语义自对齐网络(Semantically Self-Aligned Network, SSAN)来解决上述问题。首先,我们提出了一种新颖的方法,能够自动从两种模态中提取语义对齐的部分级特征。其次,我们设计了一个多视图非局部网络,该网络能够捕捉身体部位之间的关系,从而在身体部位和名词短语之间建立更好的对应关系。第三,我们引入了一种复合排序(Compound Ranking, CR)损失函数,利用同一身份的其他图像的文本描述提供额外的监督,从而有效减少文本特征中的类内变异。最后,为了加速未来在文本到图像ReID领域的研究,我们构建了一个名为ICFG-PEDES的新数据库。大量实验表明,SSAN在性能上显著优于现有的最先进方法。新的ICFG-PEDES数据库和SSAN代码均可在以下网址获取:https://github.com/zifyloo/SSAN。
代码仓库
zifyloo/SSAN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-icfg-pedes | SSAN | rank-1: 54.23 |
| nlp-based-person-retrival-on-cuhk-pedes | SSAN | R@1: 61.37 R@10: 86.73 R@5: 80.15 |
| text-based-person-retrieval-on-icfg-pedes | SSAN | R@1: 54.23 |
| text-based-person-retrieval-with-noisy | SSAN | Rank 10: 77.42 Rank-1: 46.52 Rank-5: 68.36 mAP: 42.49 mINP: 28.13 |
| text-based-person-retrieval-with-noisy-1 | SSAN | Rank 1: 40.57 Rank-10: 71.53 Rank-5: 62.58 mAP: 20.93 mINP: 2.22 |
| text-based-person-retrieval-with-noisy-2 | SSAN | Rank 1: 35.10 Rank 10: 71.45 Rank 5: 60.00 mAP: 28.90 mINP: 12.08 |