3 个月前

OGB-LSC:图上机器学习的大规模挑战

OGB-LSC:图上机器学习的大规模挑战

摘要

在大规模图数据(例如包含数十亿条边的图)上实现高效且有效的机器学习(ML),对工业界和科学界的应用均具有深远影响。然而,当前推动大规模图机器学习发展的努力在很大程度上受限于缺乏合适的公开基准测试平台。为此,我们推出了OGB大规模挑战赛(OGB Large-Scale Challenge,简称OGB-LSC),这是一个包含三个真实世界数据集的集合,旨在推动大规模图机器学习的研究进展。OGB-LSC数据集的规模较现有数据集大几个数量级,覆盖了图学习领域的三大核心任务:链接预测、图回归和节点分类。此外,我们还提供了专门的基线实验,将具有强表达能力的图机器学习模型扩展至这些超大规模数据集上进行测试。实验结果表明,表达能力强的模型显著优于简单但可扩展的基线方法,这揭示了针对大规模图学习开展专项优化的巨大潜力。值得一提的是,OGB-LSC数据集已被部署于ACM KDD Cup 2021竞赛中,全球吸引了超过500支团队报名参与。在竞赛过程中,多种创新技术带来了显著的性能提升。我们对获奖方案中普遍采用的技术进行了系统总结,并提炼出当前大规模图机器学习领域的最佳实践。最后,我们介绍了在KDD Cup结束后对数据集所做的更新,以进一步促进后续研究的发展。OGB-LSC数据集、基线代码以及KDD Cup的全部相关信息,均可在 https://ogb.stanford.edu/docs/lsc/ 免费获取。

代码仓库

基准测试

基准方法指标
graph-regression-on-pcqm4m-lscMLP-fingerprint
Test MAE: 20.68
Validation MAE: 0.2044
graph-regression-on-pcqm4m-lscGCN-Virtual
Test MAE: 15.79
Validation MAE: 0.1536
graph-regression-on-pcqm4m-lscGCN
Test MAE: 18.38
Validation MAE: 0.1684
graph-regression-on-pcqm4m-lscGIN-virtual
Test MAE: 14.87
Validation MAE: 0.1396
graph-regression-on-pcqm4m-lscGIN
Test MAE: 16.78
graph-regression-on-pcqm4mv2-lscMLP-Fingerprint
Test MAE: 0.1760
Validation MAE: 0.1753
knowledge-graphs-on-wikikg90m-lscTransE-RoBERTa
Test MRR: 0.6288
Validation MRR: 0.6039
knowledge-graphs-on-wikikg90m-lscComplEx-Concat
Test MRR: 0.8637
Validation MRR: 0.8425
knowledge-graphs-on-wikikg90m-lscTransE-Concat
Test MRR: 85.48
Validation MRR: 0.8494
knowledge-graphs-on-wikikg90m-lscComplEx-RoBERTa
Test MRR: 0.7186
Validation MRR: 0.7052
node-classification-on-mag240m-lscR-GraphSAGE (NS)
Test Accuracy: 68.94
node-classification-on-mag240m-lscSIGN
Test Accuracy: 66.09
Validation Accuracy: 66.64
node-classification-on-mag240m-lscGAT (NS)
Test Accuracy: 66.63
node-classification-on-mag240m-lscGraphSAGE (NS)
Test Accuracy: 66.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
OGB-LSC:图上机器学习的大规模挑战 | 论文 | HyperAI超神经