
摘要
图表示学习(GRL)方法,如图神经网络和图变换器模型,已成功应用于分析图结构数据,主要集中在节点分类和链接预测任务上。然而,现有的研究大多仅考虑局部连通性,而忽略了远距离连通性和节点的作用。在本文中,我们提出了一种统一的图变换器网络(UGT),能够有效地将局部和全局结构信息整合到固定长度的向量表示中。首先,UGT通过识别局部子结构并聚合每个节点的$k$跳邻域特征来学习局部结构。其次,我们构建虚拟边,连接具有结构相似性的远距离节点,以捕捉长程依赖关系。第三,UGT通过自注意力机制学习统一表示,编码节点对之间的结构距离和$p$步转移概率。此外,我们提出了一种自监督学习任务,该任务能够有效学习转移概率,融合局部和全局结构特征,并可迁移至其他下游任务。实验结果表明,在多个下游任务的真实世界基准数据集上,UGT显著优于由最先进模型组成的基线方法。另外,UGT在区分非同构图对方面达到了三阶Weisfeiler-Lehman同构测试(3d-WL)的表达能力。源代码可在https://github.com/NSLab-CUK/Unified-Graph-Transformer 获取。
代码仓库
nslab-cuk/literalkg
pytorch
GitHub 中提及
nslab-cuk/community-aware-graph-transformer
pytorch
GitHub 中提及
nslab-cuk/unified-graph-transformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| graph-classification-on-enzymes | UGT | Accuracy: 67.22±3.92 |
| graph-classification-on-nci1 | UGT | Accuracy: 77.55 ±0.16% |
| graph-classification-on-nci109 | UGT | Accuracy: 75.45±1.26 |
| graph-classification-on-proteins | UGT | Accuracy: 80.12 ±0.32 |
| node-classification-on-brazil-air-traffic | UGT | Accuracy: 0.8 ± 0.05 |
| node-classification-on-chameleon | UGT | Accuracy: 69.78 ±3.21 |
| node-classification-on-citeseer | UGT | Accuracy: 76.08±2.5 |
| node-classification-on-cora | UGT | Accuracy: 88.74±0.6% |
| node-classification-on-cornell | UGT | Accuracy: 70.0 ±4.44 |
| node-classification-on-europe-air-traffic | UGT | Accuracy: 56.92 ±6.36 |
| node-classification-on-film-60-20-20-random | UGT | 1:1 Accuracy: 36.84±0.62 |
| node-classification-on-squirrel | UGT | Accuracy: 66.96 ±2.49 |
| node-classification-on-texas | UGT | Accuracy: 86.67 ±8.31 |
| node-classification-on-usa-air-traffic | UGT | Accuracy: 66.22±4.55 |
| node-classification-on-wisconsin | UGT | Accuracy: 81.6 ±8.24 |