3 个月前

可归因的视觉相似性学习

可归因的视觉相似性学习

摘要

本文提出了一种可归因的视觉相似性学习(Attributable Visual Similarity Learning, AVSL)框架,旨在实现图像间更准确且可解释的相似性度量。现有大多数相似性学习方法通过将每个样本映射到嵌入空间中的单一数据点,并采用距离度量(如马氏距离、欧氏距离)来计算相似性,反而加剧了结果的不可解释性。受人类语义相似性认知机制的启发,本文提出了一种广义的相似性学习范式,利用图结构来表示两幅图像之间的相似性,并据此推断整体相似性。此外,我们构建了一个自底向上的相似性构建与自顶向下的相似性推理框架,基于语义层次的一致性来推断相似性。具体而言,首先识别出不可靠的高层相似性节点,随后利用语义上最一致的邻近低层相似性节点进行修正,从而在提升相似性判断准确性的同时,保留了相似性归因的可追溯痕迹。在CUB-200-2011、Cars196和Stanford Online Products等多个数据集上的大量实验表明,该方法显著优于现有的深度相似性学习方法,并充分验证了所提框架的可解释性。代码已开源,获取地址为:https://github.com/zbr17/AVSL。

代码仓库

zbr17/avsl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
metric-learning-on-cars196ResNet-50 + AVSL
R@1: 91.5
metric-learning-on-cub-200-2011ResNet-50 + AVSL
R@1: 71.9
metric-learning-on-stanford-online-products-1ResNet50 + AVSL
R@1: 79.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
可归因的视觉相似性学习 | 论文 | HyperAI超神经