4 个月前

跨模态隐式关系推理与对齐在文本到图像的人脸检索中的应用

跨模态隐式关系推理与对齐在文本到图像的人脸检索中的应用

摘要

基于文本到图像的人检索旨在根据给定的文本描述查询识别目标人物。主要挑战在于学习视觉和文本模态之间的映射,将其转化为一个共同的潜在空间。先前的研究尝试通过利用分别预训练的单模态模型来提取视觉和文本特征,以解决这一挑战。然而,这些方法缺乏有效匹配多模态数据所需的底层对齐能力。此外,这些研究使用先验信息来探索显式的局部对齐,这可能导致模态内信息的失真。为了解决这些问题,我们提出了一种跨模态隐式关系推理与对齐框架(IRRA),该框架学习局部视觉-文本标记之间的关系,并在无需额外先验监督的情况下增强全局图像-文本匹配。具体而言,我们首先设计了一个在掩码语言建模范式下的隐式关系推理模块。该模块通过使用跨模态多模态交互编码器将视觉线索整合到文本标记中,实现跨模态交互。其次,为了全局对齐视觉和文本嵌入,我们提出了相似度分布匹配方法,通过最小化图像-文本相似度分布与归一化的标签匹配分布之间的KL散度来实现这一目标。所提出的方法在三个公开数据集上均取得了新的最佳结果,与先前方法相比,在Rank-1准确率方面有显著提升,约3%-9%的提高。

代码仓库

anosorae/irra
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
nlp-based-person-retrival-on-cuhk-pedesIRRA
R@1: 73.38
R@10: 93.71
R@5: 89.93
mAP: 66.13
mINP: 50.24
text-based-person-retrieval-on-icfg-pedesIRRA
R@1: 63.46
R@10: 85.82
R@5: 80.25
mAP: 38.06
mINP: 7.93
text-based-person-retrieval-on-rstpreid-1IRRA
R@1: 60.20
R@10: 81.30
R@5: 88.20
text-based-person-retrieval-with-noisyIRRA
Rank 10: 92.20
Rank-1: 69.74
Rank-5: 87.09
mAP: 62.28
mINP: 45.84
text-based-person-retrieval-with-noisy-1IRRA
Rank 1: 60.76
Rank-10: 84.01
Rank-5: 78.26
mAP: 35.87
mINP: 6.80
text-based-person-retrieval-with-noisy-2IRRA
Rank 1: 58.75
Rank 10: 88.25
Rank 5: 81.90
mAP: 46.38
mINP: 24.78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态隐式关系推理与对齐在文本到图像的人脸检索中的应用 | 论文 | HyperAI超神经