
摘要
不同于需要昂贵标签来训练特定任务模型的组合图像检索任务,零样本组合图像检索(ZS-CIR)涉及多种任务,这些任务涵盖了广泛的视觉内容操作意图,可能与领域、场景、对象和属性相关。ZS-CIR任务的关键挑战在于学习一种更精确的图像表示方法,该方法能够根据不同的操作描述对参考图像进行自适应关注。在本文中,我们提出了一种新颖的情境依赖映射网络,命名为Context-I2W,用于将描述相关的图像信息自适应地转换为由描述组成的伪词元,以实现准确的ZS-CIR。具体而言,一个意图视图选择器首先动态学习旋转规则,将相同的图像映射到特定任务的操作视图。然后,在多个可学习查询的指导下,视觉目标提取器进一步捕捉涵盖ZS-CIR任务中主要目标的局部信息。这两个互补模块协同工作,在无需额外监督的情况下将图像映射到情境依赖的伪词元。我们的模型在四个ZS-CIR任务上表现出强大的泛化能力,包括领域转换、对象组合、对象操作和属性操作。它在最佳方法的基础上获得了从1.88%到3.60%的一致且显著的性能提升,并在ZS-CIR上取得了新的最先进结果。我们的代码可在https://github.com/Pter61/context-i2w 获取。
代码仓库
pter61/context-i2w
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-composed-image-retrieval-zs-cir-on | Context-I2W | mAP@10: 14.62 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | Context-I2W (CLIP L/14) | R@5: 55.1 |
| zero-shot-composed-image-retrieval-zs-cir-on-11 | Context-I2W (CLIP L/14) | A-R@1: 12.7 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | Context-I2W (CLIP L/14) | (Recall@10+Recall@50)/2: 38.35 |
| zero-shot-composed-image-retrieval-zs-cir-on-4 | Context-I2W | Actions Recall@5: 28.5 |
| zero-shot-composed-image-retrieval-zs-cir-on-5 | Context-I2W | Average Recall: 20.25 |
| zero-shot-composed-image-retrieval-zs-cir-on-6 | Context-I2W | (Recall@10+Recall@50)/2: 20.25 |