4 个月前

利用大型语言模型增强分子发现以实现分子-标题翻译:ChatGPT视角

利用大型语言模型增强分子发现以实现分子-标题翻译:ChatGPT视角

摘要

分子发现(Molecule Discovery)在多个科学领域中发挥着至关重要的作用,推动了定制材料和药物的设计。然而,现有的大多数方法严重依赖领域专家,需要高昂的计算成本,或者性能欠佳。相比之下,大型语言模型(LLMs),如ChatGPT,在各种跨模态任务中表现出色,这得益于其强大的自然语言理解、泛化能力和上下文学习(In-Context Learning, ICL)能力,为分子发现带来了前所未有的机遇。尽管已有几项研究尝试将LLMs应用于这一任务,但缺乏领域特定语料库以及训练专门化LLMs的困难仍然是主要挑战。在这项工作中,我们提出了一种基于LLM的新框架(MolReGPT),用于分子-标题翻译(Molecule-Caption Translation)。该框架引入了一种上下文少样本分子学习范式(In-Context Few-Shot Molecule Learning Paradigm),使像ChatGPT这样的LLMs能够在没有领域特定预训练和微调的情况下利用其上下文学习能力进行分子发现。MolReGPT利用分子相似性的原理,从本地数据库中检索相似的分子及其文本描述,以使LLMs能够从上下文示例中学习任务知识。我们对MolReGPT在分子-标题翻译任务上的有效性进行了评估,包括分子理解和基于文本的分子生成。实验结果表明,与经过微调的模型相比,MolReGPT不仅优于MolT5-base模型,而且在无需额外训练的情况下与MolT5-large模型表现相当。据我们所知,MolReGPT是首个通过上下文学习利用LLMs进行分子-标题翻译以推进分子发现的工作。我们的研究扩展了LLMs的应用范围,并为分子发现和设计提供了一种新的范式。

代码仓库

phenixace/molregpt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecule-captioning-on-chebi-20MolReGPT (GPT-4-0314)
BLEU-2: 60.7
BLEU-4: 52.5
METEOR: 61.0
ROUGE-1: 63.4
ROUGE-2: 47.6
ROUGE-L: 56.2
Text2Mol: 58.5
molecule-captioning-on-chebi-20MolReGPT (GPT-3.5-turbo)
BLEU-2: 56.5
BLEU-4: 48.2
METEOR: 62.3
ROUGE-1: 45.0
ROUGE-2: 54.3
ROUGE-L: 58.5
Text2Mol: 56.0
text-based-de-novo-molecule-generation-onMolReGPT (GPT-4-0413)
BLEU: 85.7
Exact Match: 28.0
Frechet ChemNet Distance (FCD): 0.41
Levenshtein: 17.14
MACCS FTS: 90.3
Morgan FTS: 73.9
Parameter Count: None
RDK FTS: 80.5
Text2Mol: 59.3
Validity: 89.9
text-based-de-novo-molecule-generation-onMolReGPT (GPT-3.5-turbo)
BLEU: 79.0
Exact Match: 13.9
Frechet ChemNet Distance (FCD): 0.57
Levenshtein: 24.91
MACCS FTS: 84.7
Morgan FTS: 62.4
RDK FTS: 70.8
Text2Mol: 57.1
Validity: 88.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用大型语言模型增强分子发现以实现分子-标题翻译:ChatGPT视角 | 论文 | HyperAI超神经