8 个月前

多模态表征

计算机视觉

Zefeng Ding Changxing Ding, Member, IEEE Zhiyin Shao Dacheng Tao, Fellow, IEEE

摘要

基于文本到图像的人再识别（ReID）旨在使用文本描述来搜索包含感兴趣人员的图像。然而，由于显著的模态差异和文本描述中较大的类内变异，文本到图像的ReID仍然是一个具有挑战性的问题。为此，本文提出了一种语义自对齐网络（Semantically Self-Aligned Network, SSAN）来解决上述问题。首先，我们提出了一种新颖的方法，能够自动从两种模态中提取语义对齐的部分级特征。其次，我们设计了一个多视图非局部网络，该网络能够捕捉身体部位之间的关系，从而在身体部位和名词短语之间建立更好的对应关系。第三，我们引入了一种复合排序（Compound Ranking, CR）损失函数，利用同一身份的其他图像的文本描述提供额外的监督，从而有效减少文本特征中的类内变异。最后，为了加速未来在文本到图像ReID领域的研究，我们构建了一个名为ICFG-PEDES的新数据库。大量实验表明，SSAN在性能上显著优于现有的最先进方法。新的ICFG-PEDES数据库和SSAN代码均可在以下网址获取：https://github.com/zifyloo/SSAN。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Zefeng Ding Changxing Ding, Member, IEEE Zhiyin Shao Dacheng Tao, Fellow, IEEE

摘要

基于文本到图像的人再识别（ReID）旨在使用文本描述来搜索包含感兴趣人员的图像。然而，由于显著的模态差异和文本描述中较大的类内变异，文本到图像的ReID仍然是一个具有挑战性的问题。为此，本文提出了一种语义自对齐网络（Semantically Self-Aligned Network, SSAN）来解决上述问题。首先，我们提出了一种新颖的方法，能够自动从两种模态中提取语义对齐的部分级特征。其次，我们设计了一个多视图非局部网络，该网络能够捕捉身体部位之间的关系，从而在身体部位和名词短语之间建立更好的对应关系。第三，我们引入了一种复合排序（Compound Ranking, CR）损失函数，利用同一身份的其他图像的文本描述提供额外的监督，从而有效减少文本特征中的类内变异。最后，为了加速未来在文本到图像ReID领域的研究，我们构建了一个名为ICFG-PEDES的新数据库。大量实验表明，SSAN在性能上显著优于现有的最先进方法。新的ICFG-PEDES数据库和SSAN代码均可在以下网址获取：https://github.com/zifyloo/SSAN。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供