4 个月前

图像-文本查询的组合学习用于图像检索

Muhammad Umer Anwaar; Egor Labintcev; Martin Kleinsteuber

摘要

本文研究了基于多模态（图像-文本）查询从数据库中检索图像的问题。具体而言，查询文本会提示对查询图像进行某些修改，任务是在数据库中检索出具有所需修改的图像。例如，一位电子商务平台的用户想要购买一件与她朋友的衣服相似但颜色为白色且带有丝带腰带的连衣裙。在这种情况下，我们希望算法能够检索出一些经过所需修改的连衣裙。为此，我们提出了一种基于自动编码器的模型——ComposeAE，用于学习图像和文本查询的组合以实现图像检索。我们采用了深度度量学习方法，学习一种度量，使得源图像和文本查询的组合更加接近目标图像。此外，我们在优化问题中引入了旋转对称约束。我们的方法在三个基准数据集上（即MIT-States、Fashion200k和Fashion IQ）的表现优于现有的最先进方法TIRG \cite{TIRG}。为了确保公平比较，我们通过增强TIRG方法引入了强大的基线模型。为了保证结果的可复现性，我们在此发布了代码：\url{https://github.com/ecom-research/ComposeAE}。

代码仓库

ecom-research/ComposeAE

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-retrieval-on-fashion-iq	ComposeAE	(Recall@10+Recall@50)/2: 20.6
image-retrieval-with-multi-modal-query-on	ComposeAE	Recall@1: 22.8 Recall@10: 55.3 Recall@50: 73.4
image-retrieval-with-multi-modal-query-on-1	ComposeAE	Recall@10: 11.8
image-retrieval-with-multi-modal-query-on-mit	ComposeAE	Recall@1: 13.9 Recall@10: 47.9 Recall@5: 35.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供