4 个月前

跨模态自适应双重关联用于文本到图像的人脸检索

跨模态自适应双重关联用于文本到图像的人脸检索

摘要

基于文本到图像的人重识别(ReID)旨在根据给定的文本描述检索出相应人物的图像。其主要挑战在于学习视觉和文本模态之间详细信息的关系。现有的研究主要集中在学习一个潜在空间以缩小模态差距,并进一步建立两种模态之间的局部对应关系。然而,这些方法假设图像到文本和文本到图像的关联是模态无关的,导致了次优的关联效果。在本工作中,我们展示了图像到文本关联与文本到图像关联之间的差异,并提出了CADA:跨模态自适应双向关联(Cross-Modal Adaptive Dual Association),该方法精细地建立了双向的图像-文本详细关联。我们的方法采用了一个基于解码器的自适应双向关联模块,实现了视觉和文本模态之间的完全交互,从而允许进行双向和自适应的跨模态对应关系建模。具体而言,本文提出了一种双向关联机制:文本Token到图像Patch的关联(ATP)和图像区域到文本属性的关联(ARA)。为了自适应地建模ATP,我们基于以下事实进行了设计:基于错误关联聚合跨模态特征会导致特征失真。对于建模ARA,由于属性通常是区分人物的第一线索,我们提出通过预测被遮盖的文本短语来探索属性级别的关联。最后,我们学习了文字与图像之间的双向关联,并且实验结果证明了我们提出的双关模型的优势。代码将公开发布。

基准测试

基准方法指标
nlp-based-person-retrival-on-cuhk-pedesCADA
Rank-1: 78.37
Rank-10: 94.58
Rank-5: 91.57
mAP: 68.87
text-based-person-retrieval-on-icfg-pedesCADA
Rank-1: 67.81
Rank-10: 87.14
Rank-5: 82.34
mAP: 39.85
text-based-person-retrieval-on-rstpreid-1CADA
Rank-1: 69.6
Rank-10: 92.4
Rank-5: 86.75
mAP: 52.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态自适应双重关联用于文本到图像的人脸检索 | 论文 | HyperAI超神经