
摘要
近年来,人工智能在生物研究领域的进展主要聚焦于将分子数据与自然语言相结合,以加速药物发现进程。然而,高质量标注数据的稀缺严重制约了该方向的发展。本文提出LA$^3$——一种基于语言的自动标注增强框架,利用大规模语言模型对现有数据集进行扩充,从而提升人工智能模型的训练效果。我们通过系统重写一个已有数据集中的分子注释,构建了一个增强型数据集LaChEBI-20。该数据集在保留分子关键信息的基础上,引入了更加多样化的句式结构与词汇表达。基于LaChEBI-20,我们采用基准架构训练了LaMolT5模型,使其学习分子表征与增强后注释之间的映射关系。在基于文本的从头分子生成(de novo molecule generation)与分子图像描述(molecule captioning)任务上的实验结果表明,LaMolT5显著优于当前最先进的模型,性能提升最高达基准架构的301%。此外,我们在图像、文本和图结构等多种任务中验证了LA$^3$的有效性,充分证明了该框架的通用性与实际应用价值。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecule-captioning-on-chebi-20 | LaMolT5-Large | BLEU-2: 60.2 BLEU-4: 52.1 METEOR: 63.4 ROUGE-1: 65.5 ROUGE-2: 51.2 ROUGE-L: 59.8 Text2Mol: 59.7 |
| molecule-captioning-on-chebi-20 | LaMolT5-Base | BLEU-2: 57.4 BLEU-4: 48.5 METEOR: 59.6 ROUGE-1: 63.4 ROUGE-2: 47.8 ROUGE-L: 56.4 Text2Mol: 59.9 |
| molecule-captioning-on-chebi-20 | LaMolT5-Small | BLEU-2: 53.9 BLEU-4: 44.6 METEOR: 56.6 ROUGE-1: 62.0 ROUGE-2: 46.9 ROUGE-L: 56.3 Text2Mol: 58.8 |