Chanhui LeeHanbum KoYuheon SongYongJun JeongRodrigo HormazabalSehui HanKyunghoon BaeSungbin LimSungwoong Kim

摘要
近年来,大规模语言模型(LLMs)的进展推动了能够处理多样化分子任务的模型发展,例如化学反应预测和分子性质预测。大规模的分子指令微调数据集使得仅基于序列的通用分子LLM(如基于SMILES或SELFIES表示)得以实现,而研究人员正进一步探索融合分子结构信息的多模态方法,以期获得更优性能。然而,目前尚未有真正意义上的多模态通用分子LLM被充分研究,能够全面覆盖广泛的分子任务。我们观察到,传统的下一个词元预测训练方式会忽略分子图结构信息,从而限制了LLM对分子图的有效利用。为此,我们提出两项关键方法:(i)分子结构偏好优化(Molecular Structure Preference Optimization, MolPO),通过优化正确分子结构与扰动后结构之间的偏好关系,促进模型对分子图结构的利用;(ii)一种专为图结构设计的先进图编码器,结合定制化的预训练策略,以增强MolPO在图信息利用上的效果。基于上述贡献,我们提出了Mol-LLM——首个真正意义上的多模态通用分子语言模型,具备以下特性:(a)在所有分子LLM中覆盖最广泛的分子任务;(b)显式地利用分子结构信息;(c)充分受益于大规模指令微调。在迄今为止最全面的分子LLM基准测试中,Mol-LLM取得了最先进的性能,甚至在反应预测与性质预测的分布外(out-of-distribution)数据集上也显著超越了先前的通用分子LLM,展现出显著优势。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecule-captioning-on-chebi-20 | Mol-LLM | BLEU-2: 56.0 BLEU-4: 49.0 METEOR: 59.3 ROUGE-1: 52.4 ROUGE-2: 37.0 ROUGE-L: 46.7 |
| molecule-captioning-on-chebi-20 | Mol-LLM (SELFIES) | BLEU-2: 58.7 BLEU-4: 51.5 METEOR: 61.7 ROUGE-1: 62.7 ROUGE-2: 48.7 ROUGE-L: 57.1 |