
摘要
无监督(或自监督)图表示学习在缺乏外部监督信息的情况下,对于促进各类图数据挖掘任务至关重要。其核心挑战在于如何将图结构信息以及节点和边的属性信息有效编码到低维表示空间中。现有大多数无监督方法倾向于使拓扑上相近的节点具有相似的表示。然而,近期研究表明,引入额外的图级信息(例如所有节点共享的全局信息),能够促使表示更好地捕捉图的全局特性,从而显著提升表示质量。然而,在大多数实际图结构中,仍存在大量可挖掘的潜在结构信息,例如节点往往属于一个或多个聚类,这些聚类反映了结构上相似的节点群组。基于这一观察,我们提出一种名为图信息聚类(Graph InfoClust, GIC)的图表示学习方法,旨在进一步捕捉聚类级别的信息内容。该方法通过可微分的K-means算法自动识别聚类,并通过最大化同一聚类内节点表示之间的互信息,实现聚类与表示的联合优化。这一优化过程促使节点表示能够捕获更丰富的语义信息和节点间交互模式,从而显著提升表示质量。实验结果表明,GIC在多个下游任务(包括节点分类、链接预测和节点聚类)中均优于现有最先进方法,平均性能提升幅度达0.9%至6.1%。
代码仓库
cmavro/Graph-InfoClust-GIC
pytorch
GitHub 中提及
cmavro/HeMI
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| link-prediction-on-citeseer | Graph InfoClust (GIC) | AP: 96.8 AUC: 97 |
| link-prediction-on-cora | sGraphite-VAE | AP: 93.5% AUC: 93.7% |
| link-prediction-on-pubmed | Graph InfoClust (GIC) | AP: 93.5% AUC: 93.7% |
| node-classification-on-amz-comp | Graph InfoClust (GIC) | Accuracy: 81.5 ± 1.0 |
| node-classification-on-amz-photo | Graph InfoClust (GIC) | Accuracy: 90.4 ± 1.0 |
| node-classification-on-citeseer | Graph InfoClust (GIC) | Accuracy: 71.9 ± 1.4 |
| node-classification-on-coauthor-cs | Graph InfoClust (GIC) | Accuracy: 89.4 ± 0.4 |
| node-classification-on-coauthor-phy | Graph InfoClust (GIC) | Accuracy: 93.1 ± 0.7 |
| node-classification-on-cora-fixed-20-node-per | Graph InfoClust (GIC) | Accuracy: 81.7 ± 1.5 |
| node-classification-on-pubmed | Graph InfoClust (GIC) | Accuracy: 77.4 ± 1.9 |