3 个月前

GraphGPT：生成式预训练图欧拉变换器

Qifang Zhao Weidong Ren Tianyu Li Hong Liu Xingsheng He Xiaoxiao Xu

摘要

我们提出GraphGPT，一种基于图欧拉变换器（Graph Eulerian Transformer, GET）的新型自监督生成式预训练图学习模型。首先，我们设计了GET，该模型将标准的Transformer编码器或解码器架构与一种创新的图到序列转换方法相结合。该方法通过欧拉路径（Eulerian paths）以可逆方式将图或采样的子图转换为表示节点、边及属性的令牌序列。我们采用两种自监督任务之一对GET进行预训练：下一项令牌预测（Next-Token Prediction, NTP）和调度掩码令牌预测（Scheduled Masked-Token Prediction, SMTP）。预训练完成后，模型在下游任务中进行微调，涵盖图级、边级和节点级预测任务。尽管结构简洁，GraphGPT在多个大规模Open Graph Benchmark（OGB）数据集上表现达到或超越当前最先进方法。尤其在分子性质预测数据集PCQM4Mv2以及蛋白质-蛋白质相互作用数据集ogbl-ppa上，展现出卓越性能。值得注意的是，生成式预训练使GraphGPT可扩展至20亿参数规模，同时保持性能提升，这一突破有效克服了传统图神经网络（GNNs）及先前图Transformer（GTs）在可扩展性方面的瓶颈。为推动图基础模型的研究，并促进化学、材料科学及相关领域的科学发现，我们已开源该项目的源代码（https://github.com/alibaba/graph-gpt）及预训练模型检查点。

代码仓库

alibaba/graph-gpt

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
link-property-prediction-on-ogbl-citation2	GraphGPT(SMTP)	Ext. data: No Number of params: 46784128 Test MRR: 0.9055 ± 0.0016 Validation MRR: 0.9042 ± 0.0014
link-property-prediction-on-ogbl-citation2	GraphGPT(d1n30)	Ext. data: No Number of params: 133096832 Test MRR: 0.9305 ± 0.0020 Validation MRR: 0.9295 ± 0.0022
link-property-prediction-on-ogbl-ppa	GraphGPT(SMTP)	Ext. data: No Number of params: 145263360 Test Hits@100: 0.6876 ± 0.0067 Validation Hits@100: 0.7017 ± 0.0044

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供