
摘要
语言模型(LMs)在各种一维文本相关任务中展示了令人印象深刻的分子理解能力。然而,它们本质上缺乏二维图感知能力——这是人类专业人士理解分子拓扑结构的关键能力。为了弥合这一差距,我们提出了MolCA:具有跨模态投影器和单模态适配器的分子图-语言建模方法。MolCA通过跨模态投影器使语言模型(例如Galactica)能够理解基于文本和图的分子内容。具体而言,跨模态投影器被实现为Q-Former,用于连接图编码器的表示空间和语言模型的文本空间。此外,MolCA采用了单模态适配器(即LoRA),以高效地适应下游任务。与之前通过跨模态对比学习将语言模型与图编码器结合的研究不同,MolCA保留了语言模型进行开放式文本生成的能力,并增强了其对二维图信息的理解。为了展示其有效性,我们在分子描述、IUPAC名称预测和分子-文本检索任务上广泛测试了MolCA,结果表明MolCA显著优于基线方法。我们的代码和检查点可以在https://github.com/acharkq/MolCA找到。
代码仓库
acharkq/molca
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecule-captioning-on-chebi-20 | MolCA, Galac125M | BLEU-2: 61.6 BLEU-4: 52.9 METEOR: 63.9 ROUGE-1: 67.4 ROUGE-2: 53.3 ROUGE-L: 61.5 |
| molecule-captioning-on-chebi-20 | MolCA, Galac1.3B | BLEU-2: 62.0 BLEU-4: 53.1 METEOR: 65.1 ROUGE-1: 68.1 ROUGE-2: 53.7 ROUGE-L: 61.8 |