HyperAIHyperAI

Command Palette

Search for a command to run...

图像-文本查询的组合学习用于图像检索

Muhammad Umer Anwaar; Egor Labintcev; Martin Kleinsteuber

摘要

本文研究了基于多模态(图像-文本)查询从数据库中检索图像的问题。具体而言,查询文本会提示对查询图像进行某些修改,任务是在数据库中检索出具有所需修改的图像。例如,一位电子商务平台的用户想要购买一件与她朋友的衣服相似但颜色为白色且带有丝带腰带的连衣裙。在这种情况下,我们希望算法能够检索出一些经过所需修改的连衣裙。为此,我们提出了一种基于自动编码器的模型——ComposeAE,用于学习图像和文本查询的组合以实现图像检索。我们采用了深度度量学习方法,学习一种度量,使得源图像和文本查询的组合更加接近目标图像。此外,我们在优化问题中引入了旋转对称约束。我们的方法在三个基准数据集上(即MIT-States、Fashion200k和Fashion IQ)的表现优于现有的最先进方法TIRG \cite{TIRG}。为了确保公平比较,我们通过增强TIRG方法引入了强大的基线模型。为了保证结果的可复现性,我们在此发布了代码:\url{https://github.com/ecom-research/ComposeAE}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像-文本查询的组合学习用于图像检索 | 论文 | HyperAI超神经