
摘要
在化学领域,存在海量潜在的合成路径,因此逆合成预测仍是研究者面临的一大挑战。近年来,逆合成预测被建模为机器翻译(Machine Translation, MT)任务:由于每个分子均可表示为简化的分子输入线性系统(Simplified Molecular-Input Line-Entry System, SMILES)字符串,合成过程被类比为从反应物到产物的语言翻译过程。然而,现有的应用于SMILES数据的MT模型通常忽略了分子中原子间的自然连接关系及其拓扑结构信息。为此,本文提出一种图增强Transformer(Graph Enhanced Transformer, GET)框架,该框架同时利用分子的序列信息与图结构信息。我们设计了四种不同的GET模型,通过将SMILES表示与基于改进图神经网络(Graph Neural Network, GNN)学习得到的原子嵌入进行融合,以增强模型表达能力。实验结果表明,所提出的模型在测试准确率上显著优于传统Transformer模型。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| single-step-retrosynthesis-on-uspto-50k | GET-LT1 (reaction class unknown) | Top-1 accuracy: 44.9 Top-10 accuracy: 65.9 Top-3 accuracy: 58.8 Top-5 accuracy: 62.4 |
| single-step-retrosynthesis-on-uspto-50k | GET-LT1 (reaction class as prior) | Top-1 accuracy: 57.4 Top-10 accuracy: 77.4 Top-3 accuracy: 71.3 Top-5 accuracy: 74.8 |
| single-step-retrosynthesis-on-uspto-50k | GET-LT2 (reaction class as prior) | Top-1 accuracy: 56.2 Top-10 accuracy: 74.7 Top-3 accuracy: 69.4 Top-5 accuracy: 72.5 |