3 个月前

自动注释增强显著提升了分子与自然语言之间的翻译性能

自动注释增强显著提升了分子与自然语言之间的翻译性能

摘要

近年来,人工智能在生物研究领域的进展主要聚焦于将分子数据与自然语言相结合,以加速药物发现进程。然而,高质量标注数据的稀缺严重制约了该方向的发展。本文提出LA$^3$——一种基于语言的自动标注增强框架,利用大规模语言模型对现有数据集进行扩充,从而提升人工智能模型的训练效果。我们通过系统重写一个已有数据集中的分子注释,构建了一个增强型数据集LaChEBI-20。该数据集在保留分子关键信息的基础上,引入了更加多样化的句式结构与词汇表达。基于LaChEBI-20,我们采用基准架构训练了LaMolT5模型,使其学习分子表征与增强后注释之间的映射关系。在基于文本的从头分子生成(de novo molecule generation)与分子图像描述(molecule captioning)任务上的实验结果表明,LaMolT5显著优于当前最先进的模型,性能提升最高达基准架构的301%。此外,我们在图像、文本和图结构等多种任务中验证了LA$^3$的有效性,充分证明了该框架的通用性与实际应用价值。

基准测试

基准方法指标
molecule-captioning-on-chebi-20LaMolT5-Large
BLEU-2: 60.2
BLEU-4: 52.1
METEOR: 63.4
ROUGE-1: 65.5
ROUGE-2: 51.2
ROUGE-L: 59.8
Text2Mol: 59.7
molecule-captioning-on-chebi-20LaMolT5-Base
BLEU-2: 57.4
BLEU-4: 48.5
METEOR: 59.6
ROUGE-1: 63.4
ROUGE-2: 47.8
ROUGE-L: 56.4
Text2Mol: 59.9
molecule-captioning-on-chebi-20LaMolT5-Small
BLEU-2: 53.9
BLEU-4: 44.6
METEOR: 56.6
ROUGE-1: 62.0
ROUGE-2: 46.9
ROUGE-L: 56.3
Text2Mol: 58.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自动注释增强显著提升了分子与自然语言之间的翻译性能 | 论文 | HyperAI超神经