
摘要
深度度量学习旨在学习一种函数,将图像像素映射到嵌入特征向量,以建模图像之间的相似性。度量学习的两个主要应用是基于内容的图像检索和人脸识别。对于检索任务,目前大多数最先进的(SOTA)方法采用基于三元组的非参数训练。然而,对于人脸识别任务,最近的SOTA方法则采用了基于分类的参数训练。在本文中,我们探讨了基于分类的方法在图像检索数据集上的有效性。我们在几个标准的检索数据集上进行了评估,包括CAR-196、CUB-200-2011、Stanford Online Product和In-Shop数据集,用于图像检索和聚类,并证明我们的基于分类的方法在不同的特征维度和基础特征网络下具有竞争力。此外,我们还提供了关于子采样类别对可扩展分类训练性能影响的见解,以及二值化的影响,这使得存储和计算更加高效,适用于实际应用。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-cars196 | NormSoftmax2048 (ResNet-50) | R@1: 89.3 |
| image-retrieval-on-cub-200-2011 | NormSoftmax2048 (ResNet-50) | R@1: 65.3 |
| image-retrieval-on-in-shop | NormSoftmax2048 (ResNet-50) | R@1: 89.4 |
| image-retrieval-on-sop | NormSoftmax2048 (ResNet-50) | R@1: 79.5 |