3 个月前

多模态深度聚类:图像的无监督划分

多模态深度聚类:图像的无监督划分

摘要

无标签原始图像的聚类是一项极具挑战性的任务,近年来已有部分深度学习方法取得了一定进展。本文提出一种无监督聚类框架——多模态深度聚类(Multi-Modal Deep Clustering, MMDC),该框架以端到端的方式学习深度神经网络,能够直接输出图像的聚类分配结果,无需后续额外处理。MMDC通过训练深度网络,使其图像嵌入(embedding)与高斯混合模型(Gaussian Mixture Model, GMM)分布中采样的目标点对齐,进而根据图像嵌入与GMM各分量的关联关系确定聚类归属。同时,该深度网络还被用于执行一个额外的自监督任务——预测图像的旋转角度。这一设计促使网络学习到更具语义意义的图像表征,从而进一步提升聚类性能。实验结果表明,MMDC在六个具有挑战性的基准数据集上达到或超越了当前最先进的性能水平。在自然图像数据集上,相较于以往方法,其性能提升显著,最高达20个百分点的绝对准确率增益:在CIFAR-10上达到82%的准确率,CIFAR-100上达到45%,STL-10上达到69%。

代码仓库

guysrn/mmdc
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-clustering-on-cifar-10MMDC
Accuracy: 0.820
Backbone: ResNet18
NMI: 0.703
image-clustering-on-cifar-100MMDC
Accuracy: 0.446
NMI: 0.418
image-clustering-on-imagenet-10MMDC
Accuracy: 0.811
NMI: 0.719
image-clustering-on-stl-10MMDC
Accuracy: 0.694
Backbone: ResNet18
NMI: 0.593
image-clustering-on-tiny-imagenetMMDC
Accuracy: 0.119
NMI: 0.274

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态深度聚类:图像的无监督划分 | 论文 | HyperAI超神经