4 个月前

BioT5:通过化学知识和自然语言关联丰富生物学中的跨模态整合

BioT5:通过化学知识和自然语言关联丰富生物学中的跨模态整合

摘要

近期生物研究领域的进展通过整合分子、蛋白质和自然语言来增强药物发现。然而,当前的模型存在若干局限性,例如生成无效的分子SMILES(简化分子线性输入系统)、未能充分利用上下文信息以及对结构化和非结构化知识同等对待。为了解决这些问题,我们提出了$\mathbf{BioT5}$,这是一种全面的预训练框架,旨在通过化学知识和自然语言关联丰富生物学中的跨模态整合。$\mathbf{BioT5}$利用SELFIES(自编码式分子表示)实现100%稳健的分子表示,并从非结构化生物文献中提取生物实体周围的上下文知识。此外,$\mathbf{BioT5}$区分了结构化和非结构化知识,从而更有效地利用信息。经过微调后,BioT5在多种任务中表现出色,展示了其强大的捕捉生物实体潜在关系和属性的能力。我们的代码可在$\href{https://github.com/QizhiPei/BioT5}{GitHub}$上获取。

代码仓库

QizhiPei/BioT5
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecule-captioning-on-chebi-20BioT5
BLEU-2: 63.5
BLEU-4: 55.6
METEOR: 65.6
ROUGE-1: 69.2
ROUGE-2: 55.9
ROUGE-L: 63.3
Text2Mol: 60.3
text-based-de-novo-molecule-generation-onBioT5
BLEU: 86.7
Exact Match: 41.3
Frechet ChemNet Distance (FCD): .43
Levenshtein: 15.097
MACCS FTS: 88.6
Morgan FTS: 73.4
Parameter Count: 252000000
RDK FTS: 80.1
Text2Mol: 57.6
Validity: 100

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioT5:通过化学知识和自然语言关联丰富生物学中的跨模态整合 | 论文 | HyperAI超神经