8 个月前

摘要

大型语言模型（LLMs）在各种自然语言处理任务中得到了广泛应用，例如问答和机器翻译。然而，由于缺乏标注数据以及生物化学性质的手动注释难度较大，分子生成任务的性能仍然受到限制，尤其是在涉及多属性约束的任务中。在这项工作中，我们提出了一种两步框架PEIT（属性增强指令调优），以提高LLMs在分子相关任务中的表现。第一步中，我们使用文本描述、SMILES和生物化学性质作为多模态输入来预训练一个名为PEIT-GEN的模型，通过对齐多模态表示来合成指令数据。第二步中，我们使用合成的数据对现有的开源LLMs进行微调，最终得到的PEIT-LLM能够处理分子描述、基于文本的分子生成、分子性质预测以及我们新提出的多约束分子生成任务。实验结果表明，我们的预训练模型PEIT-GEN在分子描述任务上优于MolT5和BioT5，证明了文本描述、结构和生物化学性质之间的模态对齐效果良好。此外，PEIT-LLM在多任务分子生成方面也显示出显著改进，证明了PEIT框架在各种分子任务中的可扩展性。我们已将代码、构建的指令数据和模型检查点发布在 https://github.com/chenlong164/PEIT。

源 PDF