
摘要
近年来,图神经网络(Graph Neural Networks, GNNs)已成为分析和学习图结构数据的标准工具集。这一新兴领域涌现出大量具有前景的技术方法,并在计算机科学、数学、生物学、物理学及化学等多个学科中取得了成功应用。然而,任何一项技术领域要真正走向主流并具备可靠性,都必须建立相应的基准测试体系以量化进展。为此,我们在2020年3月发布了首个基准框架,该框架具备以下四个核心特性:(i)包含多样化的数学图与真实世界图数据集;(ii)在统一的参数预算下支持公平的模型比较,有助于识别关键网络架构;(iii)采用开源、易用且可复现的代码基础设施;(iv)具备高度灵活性,便于研究人员探索新的理论构想。截至2022年12月,该框架的GitHub仓库已获得2000颗星标和380次分叉,充分体现了该开源框架在GNN社区中的广泛认可与实用价值。本文呈现了该基准框架的更新版本,系统性地总结了上述核心特性,并新增了一个中等规模的分子数据集AQSOL。该数据集与广为人知的ZINC数据集类似,但其目标化学性质基于真实世界实验测量结果,更具现实意义。我们进一步探讨了如何利用该框架推动新型GNN架构的设计与深入洞察。作为本基准框架价值的实证,本文以图的位置编码(Positional Encoding, PE)为例进行研究——该概念正是伴随本基准框架首次提出,此后引发了学术界对更强大位置编码机制的广泛关注,尤其在Transformer与GNN中探索更具鲁棒性的实验设置方面取得了显著进展。
代码仓库
guillaumejaume/tuto-dl-on-graphs
pytorch
GitHub 中提及
PaddlePaddle/PGL
paddle
GitHub 中提及
graphdeeplearning/benchmarking-gnns
官方
pytorch
GitHub 中提及
karl-zhao/benchmarking-gnns-pyg
官方
pytorch
shamim-hussain/egt
tf
GitHub 中提及
chenfengzhao/gnnhls
pytorch
GitHub 中提及
icml2024357/hombasis-gnn
pytorch
GitHub 中提及
changminwu/expandergnn
pytorch
GitHub 中提及
yashkotadia/GatedGCN-PATTERN
pytorch
GitHub 中提及
liketheflower/jimmy_dgl
pytorch
GitHub 中提及
PaddlePaddle/PGL/tree/master/examples/GaAN
paddle
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| graph-classification-on-cifar10-100k | GatedGCN | Accuracy (%): 67.312 |
| graph-classification-on-mnist | GatedGCN | Accuracy: 97.340 |
| graph-regression-on-zinc-100k | GatedGCN | MAE: 0.363 |
| graph-regression-on-zinc-500k | GatedGCN-PE | MAE: 0.214 |
| graph-regression-on-zinc-500k | GatedGCN-E-PE | MAE: 0.214 |
| link-prediction-on-collab | GatedGCN-PE | Hits: 52.849 |
| link-prediction-on-tsp-hcp-benchmark-set | GatedGCN-E | F1: 0.838 |
| node-classification-on-cluster | GatedGCN-PE | Accuracy: 76.08 |
| node-classification-on-pattern | GatedGCN | Accuracy: 86.508 |