4 个月前

上下文I2W:将图像映射到依赖于上下文的词语以实现准确的零样本组合图像检索

上下文I2W:将图像映射到依赖于上下文的词语以实现准确的零样本组合图像检索

摘要

不同于需要昂贵标签来训练特定任务模型的组合图像检索任务,零样本组合图像检索(ZS-CIR)涉及多种任务,这些任务涵盖了广泛的视觉内容操作意图,可能与领域、场景、对象和属性相关。ZS-CIR任务的关键挑战在于学习一种更精确的图像表示方法,该方法能够根据不同的操作描述对参考图像进行自适应关注。在本文中,我们提出了一种新颖的情境依赖映射网络,命名为Context-I2W,用于将描述相关的图像信息自适应地转换为由描述组成的伪词元,以实现准确的ZS-CIR。具体而言,一个意图视图选择器首先动态学习旋转规则,将相同的图像映射到特定任务的操作视图。然后,在多个可学习查询的指导下,视觉目标提取器进一步捕捉涵盖ZS-CIR任务中主要目标的局部信息。这两个互补模块协同工作,在无需额外监督的情况下将图像映射到情境依赖的伪词元。我们的模型在四个ZS-CIR任务上表现出强大的泛化能力,包括领域转换、对象组合、对象操作和属性操作。它在最佳方法的基础上获得了从1.88%到3.60%的一致且显著的性能提升,并在ZS-CIR上取得了新的最先进结果。我们的代码可在https://github.com/Pter61/context-i2w 获取。

代码仓库

pter61/context-i2w
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onContext-I2W
mAP@10: 14.62
zero-shot-composed-image-retrieval-zs-cir-on-1Context-I2W (CLIP L/14)
R@5: 55.1
zero-shot-composed-image-retrieval-zs-cir-on-11Context-I2W (CLIP L/14)
A-R@1: 12.7
zero-shot-composed-image-retrieval-zs-cir-on-2Context-I2W (CLIP L/14)
(Recall@10+Recall@50)/2: 38.35
zero-shot-composed-image-retrieval-zs-cir-on-4Context-I2W
Actions Recall@5: 28.5
zero-shot-composed-image-retrieval-zs-cir-on-5Context-I2W
Average Recall: 20.25
zero-shot-composed-image-retrieval-zs-cir-on-6Context-I2W
(Recall@10+Recall@50)/2: 20.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
上下文I2W:将图像映射到依赖于上下文的词语以实现准确的零样本组合图像检索 | 论文 | HyperAI超神经