4 个月前

CompoDiff:基于潜在扩散的多功能组合图像检索

CompoDiff:基于潜在扩散的多功能组合图像检索

摘要

本文提出了一种基于扩散的新模型——CompoDiff,用于通过潜在扩散解决零样本组合图像检索(ZS-CIR)问题。本文还介绍了一个新的合成数据集,命名为SynthTriplets18M,包含1880万张参考图像、条件及相应的目标图像三元组,用于训练CIR模型。CompoDiff和SynthTriplets18M解决了以往CIR方法中存在的不足,例如由于数据集规模较小和条件类型有限导致的泛化能力较差。CompoDiff不仅在四个ZS-CIR基准测试中取得了最新的最佳性能,包括FashionIQ、CIRR、CIRCO和GeneCIS,而且还通过接受各种条件(如负文本和图像掩码条件)实现了更加灵活和可控的CIR。此外,CompoDiff展示了在文本和图像查询之间调节条件强度的可控性以及推理速度与性能之间的权衡,这些功能是现有CIR方法所不具备的。代码和数据集可在https://github.com/navervision/CompoDiff 获取。

代码仓库

navervision/compodiff
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onCompoDiff (CLIP G/14)
mAP@10: 17.71
zero-shot-composed-image-retrieval-zs-cir-onCompoDiff (CLIP L/14)
mAP@10: 13.51
zero-shot-composed-image-retrieval-zs-cir-on-1CompoDiff (CLIP G/14)
R@5: 57.61
zero-shot-composed-image-retrieval-zs-cir-on-1CompoDiff (CLIP L/14)
R@5: 54.36
zero-shot-composed-image-retrieval-zs-cir-on-2CompoDiff (CLIP G/14)
(Recall@10+Recall@50)/2: 45.37
zero-shot-composed-image-retrieval-zs-cir-on-2CompoDiff (CLIP L/14)
(Recall@10+Recall@50)/2: 44.11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CompoDiff:基于潜在扩散的多功能组合图像检索 | 论文 | HyperAI超神经