8 个月前

摘要

深度聚类可以同时优化实例的表示（即表示学习）和探索数据的内在分布（即聚类），其性能优于传统基于给定特征的聚类方法。然而，耦合的目标函数意味着一个平凡解，即所有实例都坍缩到相同的特征表示。为了解决这一挑战，提出了一种两阶段训练策略以实现解耦，该策略首先引入一个额外的预训练阶段进行表示学习，然后对获得的模型进行微调以用于聚类。与此同时，单阶段方法主要针对表示学习而非聚类，通过设计各种聚类分配约束来显式避免坍缩问题。尽管这些方法取得了成功，但适用于深度聚类的学习目标尚未得到充分研究。在本工作中，我们首先指出监督学习中普遍存在的判别任务在单阶段聚类中是不稳定的，原因在于每个小批量中缺乏真实标签和某些聚类中的正例样本。为了缓解这一问题，我们提出了一种新的稳定聚类判别（Stable Cluster Discrimination, SeCu）任务，并相应地获得了一个新的难易度感知聚类准则。此外，我们还研究了用于聚类分配的全局熵约束及其高效的优化方法。我们在基准数据集和ImageNet上进行了广泛的实验。结果显示，SeCu在这两个数据集上均达到了最先进的性能，证明了单阶段深度聚类的有效性。代码可在\url{https://github.com/idstcv/SeCu}获取。

源 PDF