3 个月前

生成对抗聚类网络的平衡自 paced 学习

生成对抗聚类网络的平衡自 paced 学习

摘要

聚类是机器学习众多应用中的一个关键问题,但在处理复杂的真实数据时仍面临巨大挑战。现有的聚类算法要么采用浅层模型,其表达能力不足,难以捕捉数据的非线性特征;要么采用深层模型,但参数量庞大,容易发生过拟合。本文提出了一种深度生成对抗聚类网络(Deep Generative Adversarial Clustering Network, ClusterGAN),旨在以无监督方式有效训练深层聚类模型。ClusterGAN由三个网络组成:判别器(discriminator)、生成器(generator)和聚类器(clusterer,即聚类网络)。我们设计了一个三者之间的对抗博弈机制:生成器利用具有判别性的潜在变量合成逼真的样本,而聚类器则学习从真实样本到判别性嵌入空间的逆映射。此外,我们引入了一种条件熵最小化损失函数,以增强簇内样本的相似性、降低簇间样本的相似性。由于聚类任务中真实相似性标签未知,我们提出了一种新颖的平衡自步学习(balanced self-paced learning)算法,能够从简单样本逐步向困难样本推进训练过程,同时兼顾来自所有簇的样本多样性。因此,本方法通过结合所提出的对抗博弈机制与平衡自步学习策略,实现了对深层聚类器的高效训练。实验结果表明,ClusterGAN在多个数据集上取得了与当前最先进的聚类和哈希模型相媲美的性能。

基准测试

基准方法指标
image-clustering-on-mnist-fullClusterGAN
Accuracy: 0.973
NMI: 0.940
image-clustering-on-uspsClusterGAN
Accuracy: 0.970
NMI: 0.931

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生成对抗聚类网络的平衡自 paced 学习 | 论文 | HyperAI超神经