3 个月前

ARTEMIS:基于注意力机制的文本显式匹配与隐式相似性检索

ARTEMIS:基于注意力机制的文本显式匹配与隐式相似性检索

摘要

一种直观的图像搜索方式是使用由一张示例图像和一段补充文本组成的查询。其中,图像提供了丰富的隐含上下文信息,而文本则明确表达了所需的新特征,或指定了如何修改示例图像中的某些元素,以获得目标图像。当前的方法通常将查询的两个组成部分(图像与文本)的特征融合为单一表示,再与候选目标图像的特征进行比较。本文工作旨在通过两个熟悉且相关的框架——文本到图像生成(text-to-image)和图像到图像检索(image-to-image retrieval)——的视角,为该任务提供新的理解。受这些框架的启发,我们深入分析查询中每一元素与目标图像之间的特定关联,进而设计出轻量级的注意力机制,以有效协调两种互补模态之间的信息交互。我们在多个检索基准上验证了所提方法的有效性,采用图像及其对应的自由形式文本修饰符作为查询。实验结果表明,该方法在无需依赖额外信息、多层级特征、复杂预训练或庞大模型架构的前提下,取得了当前最优的性能表现。

代码仓库

naver/artemis
官方
pytorch

基准测试

基准方法指标
image-retrieval-on-cirrARTEMIS
(Recall@5+Recall_subset@1)/2: 43.05
Recall@10: 61.31

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ARTEMIS:基于注意力机制的文本显式匹配与隐式相似性检索 | 论文 | HyperAI超神经