3 个月前

CaLa:用于增强组合图像检索的互补关联学习

CaLa:用于增强组合图像检索的互补关联学习

摘要

组合图像检索(Composed Image Retrieval, CIR)是指基于图像-文本对查询来搜索目标图像的任务。尽管现有方法将CIR视为查询与目标之间的匹配问题,我们认为CIR三元组中蕴含着超出这一主关系的额外关联。在本文中,我们识别出三元组中的两种新关系,并将每个三元组建模为图节点。首先,我们提出“文本桥接图像对齐”(text-bridged image alignment)的概念,其中查询文本充当连接查询图像与目标图像的桥梁。为此,我们设计了一种基于铰链(hinge-based)的跨注意力机制,以将该关系有效融入网络学习过程。其次,我们探索了互补文本推理(complementary text reasoning),将CIR视为一种跨模态检索形式,即通过两个图像共同推断出互补的文本信息。为有效融合上述两种视角,我们设计了一种基于双注意力机制的组合模块(twin attention-based compositor)。通过将这些互补关联与显式的查询对-目标图像关系相结合,我们构建了一套全面的约束体系,用于指导CIR任务。基于上述思想,我们提出了CaLa(Complementary Association Learning for Augmenting Composed Image Retrieval)框架。我们在CIRR和FashionIQ两个基准数据集上,采用多种主干网络进行了实验验证,结果表明CaLa在组合图像检索任务中显著优于现有方法。

代码仓库

chiangsonw/cala
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-cirrCaLa
(Recall@5+Recall_subset@1)/2: 78.74
Recall@10: 89.59
image-retrieval-on-fashion-iqCaLa
(Recall@10+Recall@50)/2: 57.96
Recall@10: 46.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CaLa:用于增强组合图像检索的互补关联学习 | 论文 | HyperAI超神经