4 个月前

硬正则化防止深度在线聚类崩溃而不使用数据增强

硬正则化防止深度在线聚类崩溃而不使用数据增强

摘要

在线深度聚类是指在数据处理过程中,联合使用特征提取网络和聚类模型为每个新的数据点或批次分配聚类标签。虽然比离线方法更快且更具灵活性,但在线聚类容易陷入编码器将所有输入映射到同一点的情况,导致所有数据被归入同一个聚类。现有的成功模型采用了多种技术来避免这一问题,其中大多数需要数据增强或旨在使整个数据集中的平均软分配对每个聚类相同。我们提出了一种不需要数据增强的方法,并且与现有方法不同的是,该方法对硬分配进行正则化。通过贝叶斯框架,我们推导出一个直观的优化目标,可以 straightforwardly(直接)纳入编码器网络的训练中。我们在四个图像数据集和一个人体活动识别数据集上进行了测试,结果表明该方法比其他方法更稳健地避免了坍塌,并且实现了更准确的聚类。我们还进行了进一步的实验和分析,以证明选择对硬聚类分配进行正则化的合理性。代码可在 https://github.com/Lou1sM/online_hard_clustering 获取。注释:- “straightforwardly” 在此上下文中译为“直接”,以保持句子的简洁性和流畅性。- 术语如“特征提取网络”、“聚类模型”、“编码器”、“数据增强”、“贝叶斯框架”等均采用通用译法。- “人体活动识别” 是“human-activity recognition”的常用中文翻译。

代码仓库

基准测试

基准方法指标
online-clustering-on-cifar10OHC
online ACC: 21.7
online ARI: 5.4
online NMI: 10.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
硬正则化防止深度在线聚类崩溃而不使用数据增强 | 论文 | HyperAI超神经