3 个月前

开放图基准:图机器学习的数据集

开放图基准:图机器学习的数据集

摘要

我们提出开放图基准(Open Graph Benchmark,简称 OGB),这是一个多样、具有挑战性且贴近实际的基准数据集集合,旨在推动可扩展、鲁棒且可复现的图机器学习(Graph ML)研究。OGB 数据集规模庞大,涵盖多种重要的图机器学习任务,并覆盖从社交网络与信息网络到生物网络、分子图、源代码抽象语法树(ASTs)以及知识图谱等广泛领域。针对每个数据集,我们提供统一的评估协议,采用具有实际意义的应用特定数据划分方式和评估指标。除了构建数据集外,我们还对每个数据集开展了广泛的基准实验。实验结果表明,OGB 数据集在大规模图的可扩展性以及在现实数据划分下的分布外泛化能力方面提出了显著挑战,揭示了未来研究中丰富的创新机遇。此外,OGB 提供了一个自动化的端到端图机器学习流程,简化并标准化了图数据加载、实验配置与模型评估的过程。OGB 将持续更新,并欢迎社区成员的反馈与贡献。OGB 数据集、数据加载器、评估脚本、基线代码及排行榜均公开可获取,访问地址为:https://ogb.stanford.edu。

基准测试

基准方法指标
link-property-prediction-on-ogbl-citation2Matrix Factorization
Ext. data: No
Number of params: 281113505
Test MRR: 0.5186 ± 0.0443
Validation MRR: 0.5181 ± 0.0436
link-property-prediction-on-ogbl-collabMatrix Factorization
Ext. data: No
Number of params: 60514049
Test Hits@50: 0.3886 ± 0.0029
Validation Hits@50: 0.4896 ± 0.0029
link-property-prediction-on-ogbl-ddiMatrix Factorization
Ext. data: No
Number of params: 1224193
Test Hits@20: 0.1368 ± 0.0475
Validation Hits@20: 0.3370 ± 0.0264
link-property-prediction-on-ogbl-ppaMatrix Factorization
Ext. data: No
Number of params: 147662849
Test Hits@100: 0.3229 ± 0.0094
Validation Hits@100: 0.3228 ± 0.0428

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
开放图基准:图机器学习的数据集 | 论文 | HyperAI超神经