
摘要
近期计算生物学的研究趋势越来越集中在文本和生物实体建模的整合上,特别是在分子和蛋白质的背景下。然而,之前的尝试如BioT5在跨多种任务的泛化能力方面遇到了挑战,并且缺乏对分子结构(尤其是其文本表示,例如IUPAC名称)的细致理解。本文介绍了BioT5+,这是BioT5框架的一个扩展,旨在增强生物研究和药物发现。BioT5+引入了若干新特性:通过整合IUPAC名称来提升分子理解能力,从bioRxiv和PubChem等来源纳入大量生物文本和分子数据,采用多任务指令调优以提高任务泛化性,以及一种数值分词技术以改进数值数据的处理。这些增强功能使得BioT5+能够在分子表示与其文本描述之间架起桥梁,提供更加全面的生物实体理解,并显著提升了生物文本和生物序列的有根据推理能力。该模型经过大量的实验预训练和微调,包括3类问题(分类、回归、生成)、15种任务类型和21个基准数据集,展示了卓越的性能并在大多数情况下取得了最先进的结果。BioT5+因其捕捉生物数据中复杂关系的能力而脱颖而出,从而在生物信息学和计算生物学领域做出了重要贡献。我们的代码可在\url{https://github.com/QizhiPei/BioT5}获取。
代码仓库
QizhiPei/BioT5
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| forward-reaction-prediction-on-mol | BioT5+ | Exact: 0.864 Morgan FTS: 0.935 Validity: 1 |
| molecule-captioning-on-chebi-20 | BioT5+ | BLEU-2: 66.6 BLEU-4: 59.1 METEOR: 68.1 ROUGE-1: 71.0 ROUGE-2: 58.4 ROUGE-L: 65.0 |
| reagent-prediction-on-mol-instruction | BioT5+ | Exact: 0.257 Morgan FTS: 0.512 Validity: 1 |
| retrosynthesis-on-mol-instruction | BioT5+ | Exact: 0.642 Morgan FTS: 0.866 Validity: 1 |
| text-based-de-novo-molecule-generation-on | BioT5+ | BLEU: 87.2 Exact Match: 52.2 Frechet ChemNet Distance (FCD): 0.353 Levenshtein: 12.776 MACCS FTS: 90.7 Morgan FTS: 77.9 Parameter Count: 252000000 RDK FTS: 83.5 Text2Mol: 57.9 Validity: 100 |