
摘要
大规模图训练是图神经网络(GNNs)领域中一个长期存在的难题。由于图结构在训练过程中不断演化,传统的GNN模型通常难以实现有效扩展,其性能受限于GPU显存容量。尽管目前已提出多种可扩展的GNN架构,但针对这一丰富方法库,我们仍缺乏系统性的综述与公平的基准测试,难以厘清可扩展GNN设计的内在原理。为此,本文首先将代表性的大规模图训练方法系统性地归类为若干分支,并通过贪心超参数搜索策略构建了一个公平且一致的基准测试平台。在效率评估方面,我们从理论上分析了各分支的时间与空间复杂度,并在实践中对比了它们在GPU显存占用、吞吐量及收敛速度等方面的性能表现。此外,本文深入分析了各类可扩展GNN方法的优缺点,并提出一种新型的集成训练范式——EnGCN,以应对现有方法中存在的关键问题。相关代码已开源,地址为:https://github.com/VITA-Group/Large_Scale_GCN_Benchmarking。
代码仓库
vita-group/large_scale_gcn_benchmarking
官方
pytorch
GitHub 中提及
VITA-Group/Large_Scale_GCN_Benchmarking
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| node-classification-on-flickr | EnGCN (Duan et al., 2022) | Accuracy: 0.562 |
| node-classification-on-reddit | EnGCN | Accuracy: 96.65% |