8 个月前

摘要

在线深度聚类是指在数据处理过程中，联合使用特征提取网络和聚类模型为每个新的数据点或批次分配聚类标签。虽然比离线方法更快且更具灵活性，但在线聚类容易陷入编码器将所有输入映射到同一点的情况，导致所有数据被归入同一个聚类。现有的成功模型采用了多种技术来避免这一问题，其中大多数需要数据增强或旨在使整个数据集中的平均软分配对每个聚类相同。我们提出了一种不需要数据增强的方法，并且与现有方法不同的是，该方法对硬分配进行正则化。通过贝叶斯框架，我们推导出一个直观的优化目标，可以 straightforwardly（直接）纳入编码器网络的训练中。我们在四个图像数据集和一个人体活动识别数据集上进行了测试，结果表明该方法比其他方法更稳健地避免了坍塌，并且实现了更准确的聚类。我们还进行了进一步的实验和分析，以证明选择对硬聚类分配进行正则化的合理性。代码可在 https://github.com/Lou1sM/online_hard_clustering 获取。注释：- “straightforwardly” 在此上下文中译为“直接”，以保持句子的简洁性和流畅性。- 术语如“特征提取网络”、“聚类模型”、“编码器”、“数据增强”、“贝叶斯框架”等均采用通用译法。- “人体活动识别” 是“human-activity recognition”的常用中文翻译。

源 PDF