4 个月前

BioT5+: 通过IUPAC整合和多任务调优实现通用生物理解

BioT5+: 通过IUPAC整合和多任务调优实现通用生物理解

摘要

近期计算生物学的研究趋势越来越集中在文本和生物实体建模的整合上,特别是在分子和蛋白质的背景下。然而,之前的尝试如BioT5在跨多种任务的泛化能力方面遇到了挑战,并且缺乏对分子结构(尤其是其文本表示,例如IUPAC名称)的细致理解。本文介绍了BioT5+,这是BioT5框架的一个扩展,旨在增强生物研究和药物发现。BioT5+引入了若干新特性:通过整合IUPAC名称来提升分子理解能力,从bioRxiv和PubChem等来源纳入大量生物文本和分子数据,采用多任务指令调优以提高任务泛化性,以及一种数值分词技术以改进数值数据的处理。这些增强功能使得BioT5+能够在分子表示与其文本描述之间架起桥梁,提供更加全面的生物实体理解,并显著提升了生物文本和生物序列的有根据推理能力。该模型经过大量的实验预训练和微调,包括3类问题(分类、回归、生成)、15种任务类型和21个基准数据集,展示了卓越的性能并在大多数情况下取得了最先进的结果。BioT5+因其捕捉生物数据中复杂关系的能力而脱颖而出,从而在生物信息学和计算生物学领域做出了重要贡献。我们的代码可在\url{https://github.com/QizhiPei/BioT5}获取。

代码仓库

QizhiPei/BioT5
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
forward-reaction-prediction-on-molBioT5+
Exact: 0.864
Morgan FTS: 0.935
Validity: 1
molecule-captioning-on-chebi-20BioT5+
BLEU-2: 66.6
BLEU-4: 59.1
METEOR: 68.1
ROUGE-1: 71.0
ROUGE-2: 58.4
ROUGE-L: 65.0
reagent-prediction-on-mol-instructionBioT5+
Exact: 0.257
Morgan FTS: 0.512
Validity: 1
retrosynthesis-on-mol-instructionBioT5+
Exact: 0.642
Morgan FTS: 0.866
Validity: 1
text-based-de-novo-molecule-generation-onBioT5+
BLEU: 87.2
Exact Match: 52.2
Frechet ChemNet Distance (FCD): 0.353
Levenshtein: 12.776
MACCS FTS: 90.7
Morgan FTS: 77.9
Parameter Count: 252000000
RDK FTS: 83.5
Text2Mol: 57.9
Validity: 100

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioT5+: 通过IUPAC整合和多任务调优实现通用生物理解 | 论文 | HyperAI超神经