3 个月前

文本引导图像检索中的排名感知不确定性

文本引导图像检索中的排名感知不确定性

摘要

文本引导的图像检索旨在通过引入条件文本以更准确地捕捉用户的意图。传统方法通常聚焦于最小化源输入与目标图像之间的嵌入距离,利用给定的三元组 $\langle$源图像,源文本,目标图像$\rangle$ 进行优化。然而,这种基于三元组的优化方式可能限制了检索模型对更细粒度排序信息的建模能力,例如,三元组通常被视为一一对应关系,难以有效处理因反馈语言和图像在语义上的多样性而产生的多对多对应关系。为更好地捕捉此类排序信息,本文提出一种新颖的面向排序的不确定性建模方法,仅基于给定的三元组即可建模多对多对应关系。该方法引入不确定性学习机制,以学习特征的随机排序列表。具体而言,我们的方法主要包含三个核心组件:(1)样本内不确定性,通过结合源特征与目标特征所构建的高斯分布,捕捉语义多样性;(2)样本间不确定性,进一步挖掘来自其他样本分布中的排序信息;(3)分布正则化,用于对齐源输入与目标图像的分布表示。与现有最先进的方法相比,所提出的模型在两个公开的组合图像检索数据集上均取得了显著的性能提升。

基准测试

基准方法指标
image-retrieval-on-fashion-iqRUTIR (BLIP B/16)
(Recall@10+Recall@50)/2: 61.32
image-retrieval-on-fashion-iqRUTIR (CLIP ResNet50)
(Recall@10+Recall@50)/2: 55.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本引导图像检索中的排名感知不确定性 | 论文 | HyperAI超神经