3 个月前

CoLLM:一种用于组合图像检索的大型语言模型

CoLLM:一种用于组合图像检索的大型语言模型

摘要

组合图像检索(Composed Image Retrieval, CIR)是一项复杂任务,旨在根据多模态查询检索目标图像。典型的训练数据由三元组构成,包括参考图像、对期望修改的文本描述以及目标图像。这类数据的获取成本高昂且耗时。由于CIR数据集稀缺,现有研究多采用零样本方法,利用合成三元组或借助大规模网络爬取的图像-文本对来训练视觉-语言模型(Vision-Language Models, VLMs)。然而,这些方法存在显著局限:合成三元组规模有限、多样性不足,且修改文本缺乏自然性;而图像-文本对因缺乏三元组结构,难以支持多模态查询的联合嵌入学习。此外,现有方法在处理复杂且细微的修改描述时表现不佳,难以实现视觉与语言模态之间深层次的融合与理解。为此,本文提出CoLLM——一种端到端的统一框架,有效解决了上述挑战。该方法通过从图像-文本对中实时生成三元组,实现了无需人工标注的监督训练。我们利用大型语言模型(Large Language Models, LLMs)生成参考图像与修改文本的联合嵌入,从而促进更深层次的多模态融合。此外,我们构建了大规模的多文本CIR数据集——Multi-Text CIR(MTCIR),包含340万条样本,并对现有的CIR基准数据集(CIRR与Fashion-IQ)进行了优化与精炼,以提升评估的可靠性。实验结果表明,CoLLM在多个CIR基准和设置下均达到了当前最优性能。MTCIR数据集在各项指标上表现出色,性能提升最高达15%。经优化的基准测试体系为CIR模型提供了更加可靠和严谨的评估标准,有力推动了该领域的发展。

代码仓库

hmchuong/CoLLM
官方
GitHub 中提及

基准测试

基准方法指标
zero-shot-composed-image-retrieval-zs-cir-onCoLLM (Pretrained - BLIP-L/16)
MAP@5: 19.7
mAP@10: 20.4
mAP@50: 23.1
zero-shot-composed-image-retrieval-zs-cir-onCoLLM (Pretrained - CLIP-L/14)
MAP@5: 20.3
mAP@10: 20.8
mAP@50: 23.4
zero-shot-composed-image-retrieval-zs-cir-on-1CoLLM (finetuned - BLIP-L/16)
R@1: 45.8
R@10: 84.7
R@50: 95.8
zero-shot-composed-image-retrieval-zs-cir-on-1CoLLM (Pretrained - BLIP-L/16)
R@1: 35.00
R@10: 78.6
R@50: 94.2
zero-shot-composed-image-retrieval-zs-cir-on-1CoLLM (Pretrained - CLIP-L/14)
R@1: 29.7
R@10: 72.8
R@50: 91.5
zero-shot-composed-image-retrieval-zs-cir-on-2CoLLM (Pretrained - CLIP-L/14)
(Recall@10+Recall@50)/2: 39.8
R@10: 30.1
R@50: 49.5
zero-shot-composed-image-retrieval-zs-cir-on-2CoLLM (Pretrained - BLIP-L/16)
(Recall@10+Recall@50)/2: 45.3
R@10: 34.6
R@50: 56.0
zero-shot-composed-image-retrieval-zs-cir-on-2CoLLM (finetuned - BLIP-L/16)
(Recall@10+Recall@50)/2: 49.9
R@10: 39.1
R@50: 60.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoLLM:一种用于组合图像检索的大型语言模型 | 论文 | HyperAI超神经