4 个月前

大规模无监督图像聚类的自监督学习

大规模无监督图像聚类的自监督学习

摘要

无监督学习一直吸引着机器学习研究人员和实践者,因为它可以避免昂贵且复杂的数据标注过程。然而,复杂数据的无监督学习具有挑战性,即使是最先进的方法也表现出远不如其有监督对应方法的性能。自监督深度学习已成为计算机视觉中表示学习的强大工具。然而,这些方法尚未在完全无监督的环境中进行评估。本文提出了一种基于自监督表示的简单无监督分类方案。我们使用几种最近的自监督方法对所提出的方案进行了评估,结果显示该方案在ImageNet分类任务中取得了具有竞争力的结果(使用1000个聚类中心时准确率为39%,使用过聚类时准确率为46%)。我们建议将无监督评估加入到自监督学习的标准基准测试集当中。代码已发布在 https://github.com/Randl/kmeans_selfsuper。注释:- "overclustering" 翻译为“过聚类”,指在聚类过程中使用的聚类中心数多于实际类别数的一种技术。- “kmeans_selfsuper” 是项目名称,保留原文。

代码仓库

Randl/kmeans_selfsuper
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-objectnetBigBiGAN (RevNet-50 4×)
Top-1 Accuracy: 4.92
unsupervised-image-classification-onSimCLRv2 ResNet-152 + SK (PCA+k-means, 1500 clusters)
ARI: 1.32±0.05
Accuracy (%): 6.47±0.07
unsupervised-image-classification-onInfoMin ResNeXt-152 + SK (PCA+k-means)
ARI: 1.59±0.04
Accuracy (%): 6.53±0.19
unsupervised-image-classification-on-imagenetSimCLRv2 ResNet-152 + SK (PCA+k-means, 1500 clusters)
ARI: 23.94±0.16
Accuracy (%): 46.03±0.21
unsupervised-image-classification-on-imagenetSimCLRv2 ResNet-152 + SK (PCA+k-means)
ARI: 22.80±0.60
Accuracy (%): 39.07±0.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模无监督图像聚类的自监督学习 | 论文 | HyperAI超神经