4 个月前

DNABERT-2:多物种基因组的有效基础模型和基准

DNABERT-2:多物种基因组的有效基础模型和基准

摘要

解读基因组的语言复杂性是生物学中的一个关键问题,而预训练的基础模型如DNABERT和Nucleotide Transformer在这一领域取得了显著进展。现有的研究大多依赖于k-mer(A、T、C、G的固定长度排列)作为基因组语言的标记单位,因为其简单易用。然而,我们认为k-mer分词引入的计算和样本效率低下是开发大型基因组基础模型的主要障碍。我们从概念和实证两个方面对基因组分词进行了深入探讨,并在此基础上提出用字节对编码(Byte Pair Encoding, BPE)替代k-mer分词。BPE是一种基于统计的数据压缩算法,通过迭代合并语料库中最频繁共现的基因组片段来构建标记单位。我们证明了BPE不仅克服了k-mer分词的局限性,还受益于非重叠分词带来的计算效率提升。基于这些见解,我们推出了DNABERT-2,这是一种改进的基因组基础模型,采用了高效的分词器,并运用多种策略克服输入长度限制、减少时间和内存开销以及增强模型能力。此外,我们发现缺乏全面且标准化的基因组理解基准测试是进行公平比较分析的另一个重要障碍。为此,我们提出了基因组理解评估(Genome Understanding Evaluation, GUE),这是一个综合性的多物种基因组分类数据集,整合了9个任务中的36个不同数据集,输入长度范围从70到10000。通过对GUE基准测试进行全面实验,我们展示了DNABERT-2在参数量减少21倍的情况下,预训练所需的GPU时间减少了约92倍,同时仍能实现与最先进模型相当的性能。

代码仓库

magics-lab/dnabert_2
官方
pytorch
GitHub 中提及
jimmylihui/genbench
pytorch
GitHub 中提及
zhihan1996/dnabert_2
官方
pytorch
GitHub 中提及
frederikkemarin/bend
pytorch
GitHub 中提及
jimmylihui/OpenGenome
pytorch
GitHub 中提及
jerryji1993/dnabert
pytorch
GitHub 中提及

基准测试

基准方法指标
core-promoter-detection-on-gueDNABERT-2-117M
MCC: 70.52
covid-variant-prediction-on-gueDNABERT-2-117M
Avg F1: 71.02
epigenetic-marks-prediction-on-gueDNABERT-2-117M
MCC: 55.98
promoter-detection-on-gueDNABERT-2-117M
MCC: 84.21
splice-site-prediction-on-gueDNABERT-2-117M
MCC: 84.99
transcription-factor-binding-site-predictionDNABERT-2-117M
MCC: 70.10
transcription-factor-binding-site-prediction-1DNABERT-2-117M
MCC: 67.99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DNABERT-2:多物种基因组的有效基础模型和基准 | 论文 | HyperAI超神经