3 个月前

目标引导的组合图像检索

目标引导的组合图像检索

摘要

组合图像检索(Composed Image Retrieval, CIR)是一种新兴且灵活的图像检索范式,能够根据多模态查询(包括参考图像及其对应的修改文本)检索目标图像。尽管现有方法已取得显著进展,但仍存在两个关键局限:一是未能有效建模参考图像与修改文本之间的冲突关系,从而限制了多模态查询的组合质量;二是缺乏对候选图像与查询之间不同匹配程度的自适应建模机制,影响了最终的排序效果。为解决上述问题,本文提出一种目标引导的组合图像检索网络(Target-Guided Composed Image Retrieval, TG-CIR)。具体而言,TG-CIR首先以对比语言-图像预训练模型(CLIP)作为主干网络,提取参考图像/目标图像与修改文本的统一全局与局部属性特征,并引入正交正则化项,以促进各属性特征之间的独立性。随后,TG-CIR设计了一个基于目标-查询关系引导的多模态查询组合模块,该模块包含一个无目标的“学生”组合分支和一个基于目标的“教师”组合分支。通过在教师分支中注入目标与查询之间的关系信息,指导学生分支更有效地建模参考图像与修改文本之间的冲突关系。此外,除了传统的基于批次的分类损失外,TG-CIR还额外引入一种基于批次的目标相似性引导的匹配度正则化项,以增强度量学习过程,提升模型对不同匹配程度候选图像的区分能力。在三个基准数据集上的大量实验结果表明,所提出的TG-CIR方法在组合图像检索任务中显著优于现有方法,展现出优越的性能。

基准测试

基准方法指标
image-retrieval-on-cirrTG-CIR (Wen et al., 2023)
(Recall@5+Recall_subset@1)/2: 75.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
目标引导的组合图像检索 | 论文 | HyperAI超神经