HyperAIHyperAI

Command Palette

Search for a command to run...

Unicom:用于图像检索的通用且紧凑的表示学习

Xiang An¹, Jiankang Deng²*, Kaicheng Yang¹, Jiawei Li¹, Ziyong Feng¹, Jia Guo³, Jing Yang⁴, Tongliang Liu⁵

摘要

现代图像检索方法通常依赖于微调预训练编码器以提取图像级别的描述符。然而,最常用的模型是在包含有限类别的ImageNet-1K数据集上预训练的。因此,这些预训练的特征表示在泛化到多样化的开放世界类别时并不足够普遍。在本文中,我们首先基于CLIP模型提取的联合文本和视觉特征,将大规模LAION400M数据集聚类为一百万个伪类别。由于标签粒度的混淆,自动聚类的数据集中不可避免地存在严重的类别间冲突。为了缓解这种冲突,我们随机选择部分类别间的原型来构建基于边距的softmax损失函数。为进一步增强低维特征表示,我们在计算嵌入向量与类别原型之间的相似度时随机选择部分特征维度。双重随机部分选择涉及原型矩阵的类别维度和特征维度,使得分类更加鲁棒且特征嵌入更加紧凑。我们的方法在多个基准测试中显著优于最先进的无监督和有监督图像检索方法。代码和预训练模型已发布,以促进未来的研究(https://github.com/deepglint/unicom)


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Unicom:用于图像检索的通用且紧凑的表示学习 | 论文 | HyperAI超神经