
摘要
图卷积网络(GCNs)是用于学习属性图表示的强大模型。为了将GCNs扩展到大型图上,现有的最先进方法采用了多种层采样技术来缓解在小批量训练过程中出现的“邻居爆炸”问题。我们提出了一种基于图采样的归纳学习方法——GraphSAINT,该方法从根本上以不同的方式提高了训练效率和准确性。通过改变视角,GraphSAINT通过采样训练图而不是跨GCN层的节点或边来构建小批量数据。每次迭代时,都会从适当采样的子图中构建一个完整的GCN,从而确保所有层中的节点数量固定且连接良好。我们进一步提出了消除偏差的归一化技术和减少方差的采样算法。重要的是,我们可以将采样过程与前向和后向传播解耦,并可以将许多架构变体(例如,图注意力机制、跳跃连接)扩展到GraphSAINT中。实验结果表明,GraphSAINT在五个大型图上的准确性和训练时间方面均表现出色,并在蛋白质-蛋白质相互作用(PPI)数据集上取得了0.995的新最高F1分数,在Reddit数据集上取得了0.970的新最高F1分数。
代码仓库
hyeamykim/GCN-related-works
GitHub 中提及
maysambehmanesh/SGCL
pytorch
GitHub 中提及
thudm/graphmae2
pytorch
GitHub 中提及
lt610/GraphSaint
pytorch
GitHub 中提及
GraphSAINT/GraphACT
GitHub 中提及
xingsumq/us-defake
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| link-property-prediction-on-ogbl-citation2 | GraphSAINT (GCN aggr) | Ext. data: No Number of params: 296449 Test MRR: 0.7985 ± 0.0040 Validation MRR: 0.7975 ± 0.0039 |
| node-classification-on-ppi | GraphSAINT | F1: 99.50 |
| node-classification-on-reddit | GraphSAINT | Accuracy: 97.0% |