4 个月前

见微知著:基于文本的人检索中的隐式模态对齐

见微知著:基于文本的人检索中的隐式模态对齐

摘要

基于文本的人检索旨在根据文本描述找到查询对象。其关键在于学习视觉和文本模态之间的共同潜在空间映射。为了实现这一目标,现有的研究工作采用了分割方法以获得显式的跨模态对齐,或者利用注意力机制来探索显著的对齐关系。然而,这些方法存在两个缺点:1)标注跨模态对齐关系耗时较长;2)注意力机制虽然可以探索显著的跨模态对齐关系,但可能会忽略一些细微而有价值的关系。为了解决这些问题,我们引入了一种隐式视觉-文本(IVT)框架用于基于文本的人检索。与以往模型不同,IVT 使用单一网络来学习两种模态的表示,从而促进视觉和文本之间的交互。为了探索细粒度的对齐关系,我们进一步提出了两种隐式语义对齐范式:多层级对齐(MLA)和双向掩码建模(BMM)。MLA 模块在句子、短语和单词层面进行更精细的匹配,而 BMM 模块则致力于挖掘视觉和文本模态之间更多的语义对齐关系。我们在公共数据集上进行了广泛的实验以评估所提出的 IVT 框架,包括 CUHK-PEDES、RSTPReID 和 ICFG-PEDES 数据集。即使没有显式的身体部位对齐,我们的方法仍然达到了最先进的性能。代码可在以下地址获取:https://github.com/TencentYoutuResearch/PersonRetrieval-IVT。

代码仓库

tencentyouturesearch/personretrieval-ivt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-based-person-retrieval-with-noisyIVT
Rank 10: 85.61
Rank-1: 58.59
Rank-5: 78.51
mAP: 57.19
mINP: 45.78
text-based-person-retrieval-with-noisy-1IVT
Rank 1: 50.21
Rank-10: 76.18
Rank-5: 69.14
mAP: 34.72
mINP: 8.77
text-based-person-retrieval-with-noisy-2IVT
Rank 1: 43.65
Rank 10: 75.70
Rank 5: 66.50
mAP: 37.22
mINP: 20.47

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
见微知著:基于文本的人检索中的隐式模态对齐 | 论文 | HyperAI超神经