
摘要
化学反应预测(CRPs)在推动药物发现和材料科学方面发挥着关键作用。然而,其有效性受到庞大的不确定化学反应空间以及捕捉反应选择性的挑战所限制,尤其是现有方法在利用数据内在知识方面的局限性。为了解决这些挑战,我们提出了一种数据策划自反馈知识提取方法。该方法从分子表示的迭代优化开始,有助于提取关于化学反应类型(RTs)的知识。随后,我们采用自适应提示学习技术将先验知识注入大型语言模型(LLM)。因此,我们在多个方面取得了显著提升:逆合成预测准确性提高了14.2%,试剂预测准确性提升了74.2%,并且扩展了模型处理多任务化学反应的能力。本研究提供了一种新的知识提取范式,展示了大型语言模型在化学反应预测中的未开发潜力。
代码仓库
ai-hpc-research-team/slm4crp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chemical-reaction-prediction-on-mol | SLM4CRP | Exact: 0.674 METEOR: 0.901 Morgan FTS: 0.854 Validity: 0.998 |
| forward-reaction-prediction-on-mol | SLM4CRP | Exact: 0.945 METEOR: 0.993 Morgan FTS: 0.986 Validity: 0.997 |
| reagent-prediction-on-mol-instruction | SLM4CRP | Exact: 0.284 METEOR: 0.744 Morgan FTS: 0.649 Validity: 1 |
| retrosynthesis-on-mol-instruction | SLM4CRP | Exact: 0.757 METEOR: 0.95 Morgan FTS: 0.905 Validity: 0.994 |