4 个月前

Unicom:用于图像检索的通用且紧凑的表示学习

Unicom:用于图像检索的通用且紧凑的表示学习

摘要

现代图像检索方法通常依赖于微调预训练编码器以提取图像级别的描述符。然而,最常用的模型是在包含有限类别的ImageNet-1K数据集上预训练的。因此,这些预训练的特征表示在泛化到多样化的开放世界类别时并不足够普遍。在本文中,我们首先基于CLIP模型提取的联合文本和视觉特征,将大规模LAION400M数据集聚类为一百万个伪类别。由于标签粒度的混淆,自动聚类的数据集中不可避免地存在严重的类别间冲突。为了缓解这种冲突,我们随机选择部分类别间的原型来构建基于边距的softmax损失函数。为进一步增强低维特征表示,我们在计算嵌入向量与类别原型之间的相似度时随机选择部分特征维度。双重随机部分选择涉及原型矩阵的类别维度和特征维度,使得分类更加鲁棒且特征嵌入更加紧凑。我们的方法在多个基准测试中显著优于最先进的无监督和有监督图像检索方法。代码和预训练模型已发布,以促进未来的研究(https://github.com/deepglint/unicom)。

基准测试

基准方法指标
image-classification-on-imagenetUnicom (ViT-L/14@336px) (Finetuned)
Top 1 Accuracy: 88.3
image-retrieval-on-google-landmarks-datasetUNICOM-ViT-B-16-512px
mAP@100: 35.7
image-retrieval-on-google-landmarks-datasetUNICOM-ViT-L-14-512px
mAP@100: 36.4
image-retrieval-on-google-landmarks-dataset-1UNICOM-ViT-L-14-512px
mAP@100: 33.1
image-retrieval-on-google-landmarks-dataset-1UNICOM-ViT-B-16-512px
mAP@100: 32.4
image-retrieval-on-inaturalistUnicom+ViT-L@336px
R@1: 88.9
image-retrieval-on-sopUnicom+ViT-L@336px
R@1: 91.2
metric-learning-on-cars196Unicom+ViT-L@336px
R@1: 98.2
metric-learning-on-cub-200-2011Unicom+ViT-L@336px
R@1: 90.1
metric-learning-on-in-shop-1Unicom+ViT-L@336px
R@1: 96.7
metric-learning-on-stanford-online-products-1Unicom+ViT-L@336px
R@1: 91.2
self-supervised-image-classification-onUnicom (ViT-B/16)
Number of Params: 80M
Top 1 Accuracy: 79.1%
self-supervised-image-classification-onUnicom (ViT-B/32)
Number of Params: 80M
Top 1 Accuracy: 75.0%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Unicom:用于图像检索的通用且紧凑的表示学习 | 论文 | HyperAI超神经