
摘要
逆合成预测是有机化学及相关领域的基本挑战之一。其目标是找到能够合成目标产物分子的反应物分子。为了解决这一问题,我们提出了一种新的图到图转换模型(G2GT),该模型的图编码器和图解码器均基于标准的变压器结构构建。此外,我们还展示了自训练方法的强大数据增强能力,该方法利用未标记的分子数据,可以显著提高模型性能。受反应类型标签和集成学习的启发,我们提出了一种新颖的弱集成方法以增强多样性。通过结合束搜索、核采样和前k采样方法,我们进一步提高了推理多样性,并提出了一种简单的排序算法来获取最终的前10个结果。我们在USPTO-50K数据集上取得了54%的Top-1准确率,并在更大的USPTO-full数据集上取得了50%的Top-1准确率,同时在Top-10结果方面也具有竞争力。
代码仓库
Anonnoname/G2GT_2
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| single-step-retrosynthesis-on-uspto-50k | G2GT (reaction class unknown) | Top-1 accuracy: 54.1 Top-10 accuracy: 77.7 Top-3 accuracy: 69.9 Top-5 accuracy: 74.5 |