4 个月前

分子与自然语言之间的翻译

分子与自然语言之间的翻译

摘要

我们介绍了MolT5——一种用于在大量未标记的自然语言文本和分子字符串上预训练模型的自监督学习框架。MolT5首次探索了传统视觉-语言任务的新颖、有用且具有挑战性的类比,例如分子描述生成和基于文本的从头分子生成(统称为:分子与语言之间的翻译)。由于MolT5在单模态数据上预训练模型,它有助于克服化学领域数据稀缺的问题。此外,我们考虑了多种评估指标,包括一种新的跨模态嵌入式指标,以评估分子描述生成和基于文本的分子生成任务。我们的结果显示,基于MolT5的模型能够生成高质量的输出,包括分子和描述,在许多情况下表现优异。

代码仓库

blender-nlp/MolT5
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecule-captioning-on-chebi-20MolT5-Base
BLEU-2: 54.0
BLEU-4: 45.7
METEOR: 56.9
ROUGE-1: 63.4
ROUGE-2: 48.5
ROUGE-L: 57.8
Text2Mol: 54.7
molecule-captioning-on-chebi-20MolT5-Large
BLEU-2: 59.4
BLEU-4: 50.8
METEOR: 61.4
ROUGE-1: 65.4
ROUGE-2: 51.0
ROUGE-L: 59.4
Text2Mol: 58.2
molecule-captioning-on-chebi-20MolT5-Small
BLEU-2: 51.9
BLEU-4: 43.6
METEOR: 55.1
ROUGE-1: 62.0
ROUGE-2: 46.9
ROUGE-L: 56.3
Text2Mol: 54.0
molecule-captioning-on-l-m-24MolT5-Small
BLEU-2: 70.9
BLEU-4: 51.2
METEOR: 70.1
ROUGE-1: 74.5
ROUGE-2: 55.8
ROUGE-L: 54.4
molecule-captioning-on-l-m-24MolT5-Base
BLEU-2: 73.8
BLEU-4: 53.5
METEOR: 71.8
ROUGE-1: 75.0
ROUGE-2: 55.9
ROUGE-L: 53.9
molecule-captioning-on-l-m-24MolT5-Large
BLEU-2: 76.9
BLEU-4: 55.6
METEOR: 74.3
ROUGE-1: 77.7
ROUGE-2: 58.0
ROUGE-L: 55.7
text-based-de-novo-molecule-generation-onMolT5-Large
BLEU: 85.4
Exact Match: 30.2
Frechet ChemNet Distance (FCD): 1.20
Levenshtein: 16.07
MACCS FTS: 83.4
Morgan FTS: 68.4
Parameter Count: 770000000
RDK FTS: 74.6
Text2Mol: 55.4
Validity: 90.5
text-based-de-novo-molecule-generation-onMolT5-small
BLEU: 75.5
Exact Match: 7.9
Frechet ChemNet Distance (FCD): 2.49
Levenshtein: 25.988
MACCS FTS: 70.3
Morgan FTS: 51.7
Parameter Count: 60000000
RDK FTS: 56.8
Text2Mol: 48.2
Validity: 72.1
text-based-de-novo-molecule-generation-onMolT5-Large-HV
BLEU: 81.0
Exact Match: 31.4
Frechet ChemNet Distance (FCD): 0.44
Levenshtein: 16.758
MACCS FTS: 87.2
Morgan FTS: 72.2
Parameter Count: 770000000
RDK FTS: 78.6
Text2Mol: 59.0
Validity: 99.6
text-based-de-novo-molecule-generation-onMolT5-base
BLEU: 76.9
Exact Match: 8.1
Frechet ChemNet Distance (FCD): 2.18
Levenshtein: 24.458
MACCS FTS: 72.1
Morgan FTS: 52.9
Parameter Count: 220000000
RDK FTS: 58.8
Text2Mol: 49.6
Validity: 77.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分子与自然语言之间的翻译 | 论文 | HyperAI超神经