4 个月前

属性增强指令调优用于大型语言模型的多任务分子生成

属性增强指令调优用于大型语言模型的多任务分子生成

摘要

大型语言模型(LLMs)在各种自然语言处理任务中得到了广泛应用,例如问答和机器翻译。然而,由于缺乏标注数据以及生物化学性质的手动注释难度较大,分子生成任务的性能仍然受到限制,尤其是在涉及多属性约束的任务中。在这项工作中,我们提出了一种两步框架PEIT(属性增强指令调优),以提高LLMs在分子相关任务中的表现。第一步中,我们使用文本描述、SMILES和生物化学性质作为多模态输入来预训练一个名为PEIT-GEN的模型,通过对齐多模态表示来合成指令数据。第二步中,我们使用合成的数据对现有的开源LLMs进行微调,最终得到的PEIT-LLM能够处理分子描述、基于文本的分子生成、分子性质预测以及我们新提出的多约束分子生成任务。实验结果表明,我们的预训练模型PEIT-GEN在分子描述任务上优于MolT5和BioT5,证明了文本描述、结构和生物化学性质之间的模态对齐效果良好。此外,PEIT-LLM在多任务分子生成方面也显示出显著改进,证明了PEIT框架在各种分子任务中的可扩展性。我们已将代码、构建的指令数据和模型检查点发布在 https://github.com/chenlong164/PEIT。

代码仓库

chenlong164/peit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecule-captioning-on-chebi-20PEIT-GEN
BLEU-2: 59.8
BLEU-4: 53.4
METEOR: 67.6
ROUGE-1: 70.0
ROUGE-2: 58.2
ROUGE-L: 65.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
属性增强指令调优用于大型语言模型的多任务分子生成 | 论文 | HyperAI超神经