
摘要
本文提出了一种用于学习图像嵌入的深度卷积神经网络,旨在捕捉视觉相似性的概念。我们介绍了一种深度孪生架构(deep siamese architecture),该架构在训练正负图像对时,能够学习到一种准确逼近图像按视觉相似性排序的嵌入表示。此外,我们还实现了一种基于问题需求的新型损失计算方法,使用了角度损失度量(angular loss metrics)。最终的图像嵌入是低层和高层嵌入的组合表示。我们利用分数距离矩阵来计算在 n 维空间中学习到的嵌入之间的距离。最后,我们将所提出的架构与其他现有的深度架构进行了比较,并通过在四个数据集上测试该架构,展示了我们在图像检索方面的优越性。我们还证明了所建议的网络在学习最优嵌入以捕捉细粒度图像相似性方面优于其他传统的深度卷积神经网络(CNNs)。
代码仓库
gofynd/mildnet
tf
GitHub 中提及
Ducvoccer/mildnet
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-street2shop-topwear | Ranknet | Accuracy: 94.98 |