3 个月前

GraphGPT:生成式预训练图欧拉变换器

GraphGPT:生成式预训练图欧拉变换器

摘要

我们提出GraphGPT,一种基于图欧拉变换器(Graph Eulerian Transformer, GET)的新型自监督生成式预训练图学习模型。首先,我们设计了GET,该模型将标准的Transformer编码器或解码器架构与一种创新的图到序列转换方法相结合。该方法通过欧拉路径(Eulerian paths)以可逆方式将图或采样的子图转换为表示节点、边及属性的令牌序列。我们采用两种自监督任务之一对GET进行预训练:下一项令牌预测(Next-Token Prediction, NTP)和调度掩码令牌预测(Scheduled Masked-Token Prediction, SMTP)。预训练完成后,模型在下游任务中进行微调,涵盖图级、边级和节点级预测任务。尽管结构简洁,GraphGPT在多个大规模Open Graph Benchmark(OGB)数据集上表现达到或超越当前最先进方法。尤其在分子性质预测数据集PCQM4Mv2以及蛋白质-蛋白质相互作用数据集ogbl-ppa上,展现出卓越性能。值得注意的是,生成式预训练使GraphGPT可扩展至20亿参数规模,同时保持性能提升,这一突破有效克服了传统图神经网络(GNNs)及先前图Transformer(GTs)在可扩展性方面的瓶颈。为推动图基础模型的研究,并促进化学、材料科学及相关领域的科学发现,我们已开源该项目的源代码(https://github.com/alibaba/graph-gpt)及预训练模型检查点。

代码仓库

alibaba/graph-gpt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
link-property-prediction-on-ogbl-citation2GraphGPT(SMTP)
Ext. data: No
Number of params: 46784128
Test MRR: 0.9055 ± 0.0016
Validation MRR: 0.9042 ± 0.0014
link-property-prediction-on-ogbl-citation2GraphGPT(d1n30)
Ext. data: No
Number of params: 133096832
Test MRR: 0.9305 ± 0.0020
Validation MRR: 0.9295 ± 0.0022
link-property-prediction-on-ogbl-ppaGraphGPT(SMTP)
Ext. data: No
Number of params: 145263360
Test Hits@100: 0.6876 ± 0.0067
Validation Hits@100: 0.7017 ± 0.0044

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GraphGPT:生成式预训练图欧拉变换器 | 论文 | HyperAI超神经