3 个月前

重新思考用于属性图聚类的图自编码器模型

重新思考用于属性图聚类的图自编码器模型

摘要

近年来,大多数图聚类方法采用图自编码器(Graph Auto-Encoders, GAEs)实现聚类与嵌入学习的联合优化。然而,现有方法忽视了两个关键问题。其一,由于在存在噪声的聚类分配下进行学习,导致误差累积,从而降低了聚类模型的有效性与鲁棒性,这一问题被称为特征随机性(Feature Randomness)。其二,重构邻接矩阵的过程使模型学习到与聚类任务无关的相似性信息,这一问题被称为特征漂移(Feature Drift)。值得注意的是,上述两个问题之间的理论关联尚未得到系统研究。本文从两个层面深入探讨这些问题:(1)当聚类与重构在同一层级上同时进行时,特征随机性与特征漂移之间存在一种权衡关系;(2)相较于传统的自编码器模型,GAE模型在图卷积操作和图解码结构设计的双重影响下,特征漂移问题更为显著。基于上述发现,我们对基于GAE的聚类方法进行了重新构型。所提出的方法包含两个核心组件:第一,设计了一个采样算子 $Ξ$,用于激活对噪声聚类分配的保护机制,从而缓解特征随机性问题;第二,提出一个校正算子 $Υ$,通过逐步将重构图转化为面向聚类目标的图结构,实现对特征漂移的纠正。作为主要优势,本方法显著提升了聚类的准确性和鲁棒性,且可无缝集成至现有的GAE模型中,具有良好的通用性与可扩展性。

代码仓库

nairouz/R-GAE
官方
pytorch

基准测试

基准方法指标
graph-clustering-on-citeseerR-GMM-VGAE
ACC: 68.9
ARI: 43.9
NMI: 42.0
graph-clustering-on-citeseerR-DGAE
ACC: 70.5
ARI: 47.1
NMI: 45.0
graph-clustering-on-coraR-GMM-VGAE
ACC: 76.7
ARI: 57.9
NMI: 57.3
graph-clustering-on-coraR-DGAE
ACC: 73.7
ARI: 54.1
NMI: 56.0
graph-clustering-on-pubmedR-GMM-VGAE
ACC: 74.0
ARI: 37.9
NMI: 33.4
graph-clustering-on-pubmedR-DGAE
ACC: 71.4
ARI: 34.6
NMI: 34.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考用于属性图聚类的图自编码器模型 | 论文 | HyperAI超神经