4 个月前

Unicom：用于图像检索的通用且紧凑的表示学习

Xiang An; Jiankang Deng; Kaicheng Yang; Jaiwei Li; Ziyong Feng; Jia Guo; Jing Yang; Tongliang Liu

摘要

现代图像检索方法通常依赖于微调预训练编码器以提取图像级别的描述符。然而，最常用的模型是在包含有限类别的ImageNet-1K数据集上预训练的。因此，这些预训练的特征表示在泛化到多样化的开放世界类别时并不足够普遍。在本文中，我们首先基于CLIP模型提取的联合文本和视觉特征，将大规模LAION400M数据集聚类为一百万个伪类别。由于标签粒度的混淆，自动聚类的数据集中不可避免地存在严重的类别间冲突。为了缓解这种冲突，我们随机选择部分类别间的原型来构建基于边距的softmax损失函数。为进一步增强低维特征表示，我们在计算嵌入向量与类别原型之间的相似度时随机选择部分特征维度。双重随机部分选择涉及原型矩阵的类别维度和特征维度，使得分类更加鲁棒且特征嵌入更加紧凑。我们的方法在多个基准测试中显著优于最先进的无监督和有监督图像检索方法。代码和预训练模型已发布，以促进未来的研究（https://github.com/deepglint/unicom）。

代码仓库

OML-Team/open-metric-learning

pytorch

RocketFlash/easy_metric_learning/tree/master/tools

pytorch

deepglint/unicom

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-classification-on-imagenet	Unicom (ViT-L/14@336px) (Finetuned)	Top 1 Accuracy: 88.3
image-retrieval-on-google-landmarks-dataset	UNICOM-ViT-B-16-512px	mAP@100: 35.7
image-retrieval-on-google-landmarks-dataset	UNICOM-ViT-L-14-512px	mAP@100: 36.4
image-retrieval-on-google-landmarks-dataset-1	UNICOM-ViT-L-14-512px	mAP@100: 33.1
image-retrieval-on-google-landmarks-dataset-1	UNICOM-ViT-B-16-512px	mAP@100: 32.4
image-retrieval-on-inaturalist	Unicom+ViT-L@336px	R@1: 88.9
image-retrieval-on-sop	Unicom+ViT-L@336px	R@1: 91.2
metric-learning-on-cars196	Unicom+ViT-L@336px	R@1: 98.2
metric-learning-on-cub-200-2011	Unicom+ViT-L@336px	R@1: 90.1
metric-learning-on-in-shop-1	Unicom+ViT-L@336px	R@1: 96.7
metric-learning-on-stanford-online-products-1	Unicom+ViT-L@336px	R@1: 91.2
self-supervised-image-classification-on	Unicom (ViT-B/16)	Number of Params: 80M Top 1 Accuracy: 79.1%
self-supervised-image-classification-on	Unicom (ViT-B/32)	Number of Params: 80M Top 1 Accuracy: 75.0%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供