
摘要
在有机化学中,单步逆合成(SSR)正越来越多地受益于计算机辅助合成设计中的深度学习(DL)技术。尽管无模板的深度学习模型在逆合成预测方面具有灵活性和前景,但它们通常忽略了重要的二维分子信息,并且在节点生成时难以进行原子对齐,导致其性能低于基于模板和半基于模板的方法。为了解决这些问题,我们引入了一种基于变压器的无模板深度学习模型——节点对齐图到图(NAG2G)。NAG2G 结合了二维分子图和三维构象,以保留全面的分子细节,并通过节点对齐将产物-反应物原子映射纳入其中,从而以自回归的方式确定逐节点图输出过程的顺序。通过严格的基准测试和详细的案例研究,我们证明了 NAG2G 在 USPTO-50k 和 USPTO-FULL 大规模数据集上表现出显著的预测准确性。此外,该模型成功预测了多种药物候选分子的合成路径,不仅证明了其鲁棒性,还展示了其在未来合成路线设计任务中预测复杂化学合成过程的巨大潜力。
代码仓库
dptech-corp/nag2g
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| single-step-retrosynthesis-on-uspto-50k | NAG2G (reaction class unknown) | Top-1 accuracy: 55.1 Top-10 accuracy: 89.9 Top-3 accuracy: 76.9 Top-5 accuracy: 83.4 |
| single-step-retrosynthesis-on-uspto-50k | NAG2G (reaction class as prior) | Top-1 accuracy: 67.2 Top-10 accuracy: 93.8 Top-3 accuracy: 86.4 Top-5 accuracy: 90.5 |