4 个月前

语义自对齐网络用于文本到图像局部感知的人重识别

语义自对齐网络用于文本到图像局部感知的人重识别

摘要

基于文本到图像的人再识别(ReID)旨在使用文本描述来搜索包含感兴趣人员的图像。然而,由于显著的模态差异和文本描述中较大的类内变异,文本到图像的ReID仍然是一个具有挑战性的问题。为此,本文提出了一种语义自对齐网络(Semantically Self-Aligned Network, SSAN)来解决上述问题。首先,我们提出了一种新颖的方法,能够自动从两种模态中提取语义对齐的部分级特征。其次,我们设计了一个多视图非局部网络,该网络能够捕捉身体部位之间的关系,从而在身体部位和名词短语之间建立更好的对应关系。第三,我们引入了一种复合排序(Compound Ranking, CR)损失函数,利用同一身份的其他图像的文本描述提供额外的监督,从而有效减少文本特征中的类内变异。最后,为了加速未来在文本到图像ReID领域的研究,我们构建了一个名为ICFG-PEDES的新数据库。大量实验表明,SSAN在性能上显著优于现有的最先进方法。新的ICFG-PEDES数据库和SSAN代码均可在以下网址获取:https://github.com/zifyloo/SSAN。

代码仓库

zifyloo/SSAN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-icfg-pedesSSAN
rank-1: 54.23
nlp-based-person-retrival-on-cuhk-pedesSSAN
R@1: 61.37
R@10: 86.73
R@5: 80.15
text-based-person-retrieval-on-icfg-pedesSSAN
R@1: 54.23
text-based-person-retrieval-with-noisySSAN
Rank 10: 77.42
Rank-1: 46.52
Rank-5: 68.36
mAP: 42.49
mINP: 28.13
text-based-person-retrieval-with-noisy-1SSAN
Rank 1: 40.57
Rank-10: 71.53
Rank-5: 62.58
mAP: 20.93
mINP: 2.22
text-based-person-retrieval-with-noisy-2SSAN
Rank 1: 35.10
Rank 10: 71.45
Rank 5: 60.00
mAP: 28.90
mINP: 12.08

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语义自对齐网络用于文本到图像局部感知的人重识别 | 论文 | HyperAI超神经