
摘要
分子发现(Molecule Discovery)在多个科学领域中发挥着至关重要的作用,推动了定制材料和药物的设计。然而,现有的大多数方法严重依赖领域专家,需要高昂的计算成本,或者性能欠佳。相比之下,大型语言模型(LLMs),如ChatGPT,在各种跨模态任务中表现出色,这得益于其强大的自然语言理解、泛化能力和上下文学习(In-Context Learning, ICL)能力,为分子发现带来了前所未有的机遇。尽管已有几项研究尝试将LLMs应用于这一任务,但缺乏领域特定语料库以及训练专门化LLMs的困难仍然是主要挑战。在这项工作中,我们提出了一种基于LLM的新框架(MolReGPT),用于分子-标题翻译(Molecule-Caption Translation)。该框架引入了一种上下文少样本分子学习范式(In-Context Few-Shot Molecule Learning Paradigm),使像ChatGPT这样的LLMs能够在没有领域特定预训练和微调的情况下利用其上下文学习能力进行分子发现。MolReGPT利用分子相似性的原理,从本地数据库中检索相似的分子及其文本描述,以使LLMs能够从上下文示例中学习任务知识。我们对MolReGPT在分子-标题翻译任务上的有效性进行了评估,包括分子理解和基于文本的分子生成。实验结果表明,与经过微调的模型相比,MolReGPT不仅优于MolT5-base模型,而且在无需额外训练的情况下与MolT5-large模型表现相当。据我们所知,MolReGPT是首个通过上下文学习利用LLMs进行分子-标题翻译以推进分子发现的工作。我们的研究扩展了LLMs的应用范围,并为分子发现和设计提供了一种新的范式。
代码仓库
phenixace/molregpt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecule-captioning-on-chebi-20 | MolReGPT (GPT-4-0314) | BLEU-2: 60.7 BLEU-4: 52.5 METEOR: 61.0 ROUGE-1: 63.4 ROUGE-2: 47.6 ROUGE-L: 56.2 Text2Mol: 58.5 |
| molecule-captioning-on-chebi-20 | MolReGPT (GPT-3.5-turbo) | BLEU-2: 56.5 BLEU-4: 48.2 METEOR: 62.3 ROUGE-1: 45.0 ROUGE-2: 54.3 ROUGE-L: 58.5 Text2Mol: 56.0 |
| text-based-de-novo-molecule-generation-on | MolReGPT (GPT-4-0413) | BLEU: 85.7 Exact Match: 28.0 Frechet ChemNet Distance (FCD): 0.41 Levenshtein: 17.14 MACCS FTS: 90.3 Morgan FTS: 73.9 Parameter Count: None RDK FTS: 80.5 Text2Mol: 59.3 Validity: 89.9 |
| text-based-de-novo-molecule-generation-on | MolReGPT (GPT-3.5-turbo) | BLEU: 79.0 Exact Match: 13.9 Frechet ChemNet Distance (FCD): 0.57 Levenshtein: 24.91 MACCS FTS: 84.7 Morgan FTS: 62.4 RDK FTS: 70.8 Text2Mol: 57.1 Validity: 88.7 |