3 个月前

细粒度草图图像检索中的深度空间-语义注意力机制

细粒度草图图像检索中的深度空间-语义注意力机制

摘要

人类手绘草图在捕捉视觉对象的空间拓扑结构以及细微外观特征方面具有独特优势。细粒度草图图像检索(Fine-Grained Sketch-Based Image Retrieval, FG-SBIR)正是充分利用草图的这一细粒度特性,实现对照片的实例级检索。然而,人类草图通常具有高度抽象和象征性,导致其与候选图像之间存在严重的空间错位,进而使得细微视觉特征的匹配变得极为困难。现有FG-SBIR方法主要依赖深度跨域表示学习进行粗粒度的整体匹配,却未能显式建模细粒度细节及其空间上下文关系。本文提出一种新型深度FG-SBIR模型,其在结构上显著区别于现有方法,主要体现在三个方面:(1)具备空间感知能力,通过引入对视觉细节空间位置敏感的注意力模块实现;(2)通过捷径连接融合模块,有效结合粗粒度与细粒度语义信息;(3)引入一种新型高阶可学习能量函数(Higher Order Learnable Energy Function, HOLEF)损失,以建模特征间的相关性,并增强模型对跨域特征提取结果之间错位问题的鲁棒性。大量实验结果表明,所提出的深度空间-语义注意力模型在性能上显著优于当前最先进的方法。

基准测试

基准方法指标
sketch-based-image-retrieval-on-chairsChairs net + CFF + HOLEF
R@1: 81.4
R@10: 95.9
sketch-based-image-retrieval-on-handbagsHandbags net + CFF + HOLEF
R@1: 49.4
R@10: 82.7
sketch-based-image-retrieval-on-handbagsHandbags net
R@1: 39.9
R@10: 82.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
细粒度草图图像检索中的深度空间-语义注意力机制 | 论文 | HyperAI超神经