Command Palette
Search for a command to run...
语义自对齐网络用于文本到图像局部感知的人重识别
语义自对齐网络用于文本到图像局部感知的人重识别
Zefeng Ding Changxing Ding, Member, IEEE Zhiyin Shao Dacheng Tao, Fellow, IEEE
摘要
基于文本到图像的人再识别(ReID)旨在使用文本描述来搜索包含感兴趣人员的图像。然而,由于显著的模态差异和文本描述中较大的类内变异,文本到图像的ReID仍然是一个具有挑战性的问题。为此,本文提出了一种语义自对齐网络(Semantically Self-Aligned Network, SSAN)来解决上述问题。首先,我们提出了一种新颖的方法,能够自动从两种模态中提取语义对齐的部分级特征。其次,我们设计了一个多视图非局部网络,该网络能够捕捉身体部位之间的关系,从而在身体部位和名词短语之间建立更好的对应关系。第三,我们引入了一种复合排序(Compound Ranking, CR)损失函数,利用同一身份的其他图像的文本描述提供额外的监督,从而有效减少文本特征中的类内变异。最后,为了加速未来在文本到图像ReID领域的研究,我们构建了一个名为ICFG-PEDES的新数据库。大量实验表明,SSAN在性能上显著优于现有的最先进方法。新的ICFG-PEDES数据库和SSAN代码均可在以下网址获取:https://github.com/zifyloo/SSAN。