
摘要
现代图像检索方法通常依赖于微调预训练编码器以提取图像级别的描述符。然而,最常用的模型是在包含有限类别的ImageNet-1K数据集上预训练的。因此,这些预训练的特征表示在泛化到多样化的开放世界类别时并不足够普遍。在本文中,我们首先基于CLIP模型提取的联合文本和视觉特征,将大规模LAION400M数据集聚类为一百万个伪类别。由于标签粒度的混淆,自动聚类的数据集中不可避免地存在严重的类别间冲突。为了缓解这种冲突,我们随机选择部分类别间的原型来构建基于边距的softmax损失函数。为进一步增强低维特征表示,我们在计算嵌入向量与类别原型之间的相似度时随机选择部分特征维度。双重随机部分选择涉及原型矩阵的类别维度和特征维度,使得分类更加鲁棒且特征嵌入更加紧凑。我们的方法在多个基准测试中显著优于最先进的无监督和有监督图像检索方法。代码和预训练模型已发布,以促进未来的研究(https://github.com/deepglint/unicom)。
代码仓库
deepglint/unicom
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | Unicom (ViT-L/14@336px) (Finetuned) | Top 1 Accuracy: 88.3 |
| image-retrieval-on-google-landmarks-dataset | UNICOM-ViT-B-16-512px | mAP@100: 35.7 |
| image-retrieval-on-google-landmarks-dataset | UNICOM-ViT-L-14-512px | mAP@100: 36.4 |
| image-retrieval-on-google-landmarks-dataset-1 | UNICOM-ViT-L-14-512px | mAP@100: 33.1 |
| image-retrieval-on-google-landmarks-dataset-1 | UNICOM-ViT-B-16-512px | mAP@100: 32.4 |
| image-retrieval-on-inaturalist | Unicom+ViT-L@336px | R@1: 88.9 |
| image-retrieval-on-sop | Unicom+ViT-L@336px | R@1: 91.2 |
| metric-learning-on-cars196 | Unicom+ViT-L@336px | R@1: 98.2 |
| metric-learning-on-cub-200-2011 | Unicom+ViT-L@336px | R@1: 90.1 |
| metric-learning-on-in-shop-1 | Unicom+ViT-L@336px | R@1: 96.7 |
| metric-learning-on-stanford-online-products-1 | Unicom+ViT-L@336px | R@1: 91.2 |
| self-supervised-image-classification-on | Unicom (ViT-B/16) | Number of Params: 80M Top 1 Accuracy: 79.1% |
| self-supervised-image-classification-on | Unicom (ViT-B/32) | Number of Params: 80M Top 1 Accuracy: 75.0% |