4 个月前

基于文本反馈的多粒度不确定性正则化复合图像检索

基于文本反馈的多粒度不确定性正则化复合图像检索

摘要

我们研究了带有文本反馈的组合图像检索。用户通过从粗略到细粒度的反馈逐步寻找感兴趣的目標。然而,現有方法主要集中在后者,即細粒度搜索,通过在训练过程中利用正负样本对来实现这一目标。这种基于样本对的范式仅考虑特定点对之间的一对一距离,这与一对多的粗略检索过程不一致,并且降低了召回率。为了填补这一空白,我们引入了一种统一的学习方法,通过考虑多粒度不确定性同时建模粗略和细粒度检索。所提出方法的核心思想是将细粒度和粗粒度检索分别视为匹配特征空间中波动较小和波动较大的数据点。具体来说,我们的方法包含两个模块:不确定性建模和不确定性正则化。(1)不确定性建模通过在特征空间中引入相同分布的波动来模拟多粒度查询。(2)基于不确定性建模,我们进一步引入不确定性正则化,根据波动范围调整匹配目标。与现有方法相比,所提出的策略明确防止模型在早期阶段排除潜在候选对象,从而提高了召回率。在三个公开数据集上(即FashionIQ、Fashion200k和Shoes),所提出的方法分别比一个强大的基线模型在Recall@50准确性上提高了4.03%、3.38%和2.40%。

代码仓库

Monoxide-Chen/uncertainty_retrieval
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-fashion-iqMUR (4*ResNet50)
(Recall@10+Recall@50)/2: 50.61
image-retrieval-on-fashion-iqMUR
(Recall@10+Recall@50)/2: 47.28
image-retrieval-with-multi-modal-query-onMulti-grained Uncertainty Regularization(MUR)
Recall@1: 21.8
Recall@10: 52.1
Recall@50: 70.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本反馈的多粒度不确定性正则化复合图像检索 | 论文 | HyperAI超神经