4 个月前

图像-文本查询的组合学习用于图像检索

图像-文本查询的组合学习用于图像检索

摘要

本文研究了基于多模态(图像-文本)查询从数据库中检索图像的问题。具体而言,查询文本会提示对查询图像进行某些修改,任务是在数据库中检索出具有所需修改的图像。例如,一位电子商务平台的用户想要购买一件与她朋友的衣服相似但颜色为白色且带有丝带腰带的连衣裙。在这种情况下,我们希望算法能够检索出一些经过所需修改的连衣裙。为此,我们提出了一种基于自动编码器的模型——ComposeAE,用于学习图像和文本查询的组合以实现图像检索。我们采用了深度度量学习方法,学习一种度量,使得源图像和文本查询的组合更加接近目标图像。此外,我们在优化问题中引入了旋转对称约束。我们的方法在三个基准数据集上(即MIT-States、Fashion200k和Fashion IQ)的表现优于现有的最先进方法TIRG \cite{TIRG}。为了确保公平比较,我们通过增强TIRG方法引入了强大的基线模型。为了保证结果的可复现性,我们在此发布了代码:\url{https://github.com/ecom-research/ComposeAE}。

代码仓库

ecom-research/ComposeAE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-fashion-iqComposeAE
(Recall@10+Recall@50)/2: 20.6
image-retrieval-with-multi-modal-query-onComposeAE
Recall@1: 22.8
Recall@10: 55.3
Recall@50: 73.4
image-retrieval-with-multi-modal-query-on-1ComposeAE
Recall@10: 11.8
image-retrieval-with-multi-modal-query-on-mitComposeAE
Recall@1: 13.9
Recall@10: 47.9
Recall@5: 35.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像-文本查询的组合学习用于图像检索 | 论文 | HyperAI超神经