
摘要
本文提出了一种基于扩散的新模型——CompoDiff,用于通过潜在扩散解决零样本组合图像检索(ZS-CIR)问题。本文还介绍了一个新的合成数据集,命名为SynthTriplets18M,包含1880万张参考图像、条件及相应的目标图像三元组,用于训练CIR模型。CompoDiff和SynthTriplets18M解决了以往CIR方法中存在的不足,例如由于数据集规模较小和条件类型有限导致的泛化能力较差。CompoDiff不仅在四个ZS-CIR基准测试中取得了最新的最佳性能,包括FashionIQ、CIRR、CIRCO和GeneCIS,而且还通过接受各种条件(如负文本和图像掩码条件)实现了更加灵活和可控的CIR。此外,CompoDiff展示了在文本和图像查询之间调节条件强度的可控性以及推理速度与性能之间的权衡,这些功能是现有CIR方法所不具备的。代码和数据集可在https://github.com/navervision/CompoDiff 获取。
代码仓库
navervision/compodiff
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-composed-image-retrieval-zs-cir-on | CompoDiff (CLIP G/14) | mAP@10: 17.71 |
| zero-shot-composed-image-retrieval-zs-cir-on | CompoDiff (CLIP L/14) | mAP@10: 13.51 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | CompoDiff (CLIP G/14) | R@5: 57.61 |
| zero-shot-composed-image-retrieval-zs-cir-on-1 | CompoDiff (CLIP L/14) | R@5: 54.36 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | CompoDiff (CLIP G/14) | (Recall@10+Recall@50)/2: 45.37 |
| zero-shot-composed-image-retrieval-zs-cir-on-2 | CompoDiff (CLIP L/14) | (Recall@10+Recall@50)/2: 44.11 |