4 个月前

MolFM: 多模态分子基础模型

MolFM: 多模态分子基础模型

摘要

分子知识存在于三种不同的信息来源模式中:分子结构、生物医学文献和知识库。有效整合这些模式中的分子知识对于促进生物医学研究具有极其重要的意义。然而,现有的多模态分子基础模型在捕捉分子结构与文本之间的复杂联系方面存在局限性,更重要的是,没有一种模型尝试利用从知识图谱中获得的大量分子专业知识。在本研究中,我们介绍了MolFM,这是一种旨在从分子结构、生物医学文本和知识图谱中进行联合表示学习的多模态分子基础模型。我们提出了分子结构中原子之间、分子实体邻居之间以及语义相关文本之间的跨模态注意力机制,以促进跨模态理解。我们提供了理论分析,表明我们的跨模态预训练通过最小化同一分子不同模态特征空间的距离,以及具有相似结构或功能的分子之间的距离,从而捕获局部和全局的分子知识。MolFM在各种下游任务上取得了最先进的性能。在跨模态检索任务中,MolFM在零样本设置下比现有模型高出12.13%,在微调设置下高出5.04%。此外,定性分析展示了MolFM隐含地从分子亚结构和知识图谱提供依据的能力。代码和模型可在https://github.com/BioFM/OpenBioMed 获取。

代码仓库

pharmolix/openbiomed
pytorch
GitHub 中提及
biofm/openbiomed
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecule-captioning-on-chebi-20MolFM-Base
BLEU-2: 58.5
BLEU-4: 49.8
METEOR: 60.7
ROUGE-1: 65.3
ROUGE-2: 50.8
ROUGE-L: 59.4
Text2Mol: 57.6
molecule-captioning-on-chebi-20MolFM-Small
BLEU-2: 54.2
BLEU-4: 45.2
METEOR: 56.4
ROUGE-1: 62.3
ROUGE-2: 46.9
ROUGE-L: 56.2
Text2Mol: 55.7
text-based-de-novo-molecule-generation-onMolFM-Small
BLEU: 80.3
Exact Match: 16.9
Levenshtein: 20.868
MACCS FTS: 83.4
Morgan FTS: 72.1
Parameter Count: 13620000
RDK FTS: 66.2
Text2Mol: 57.3
Validity: 85.9
text-based-de-novo-molecule-generation-onMolFM-Base
BLEU: 82.2
Exact Match: 21.0
Levenshtein: 19.445
MACCS FTS: 85.4
Morgan FTS: 75.8
Parameter Count: 296200000
RDK FTS: 69.7
Text2Mol: 58.3
Validity: 89.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MolFM: 多模态分子基础模型 | 论文 | HyperAI超神经