
摘要
计算生物学和生物信息学提供了来自蛋白质序列的海量数据金矿,非常适合从自然语言处理(NLP)中借鉴的语言模型(LM)。这些语言模型以较低的推理成本达到了新的预测前沿。在本研究中,我们在包含多达3930亿个氨基酸的数据集上训练了两种自回归模型(Transformer-XL、XLNet)和四种自动编码器模型(BERT、Albert、Electra、T5),数据来源于UniRef和BFD数据库。这些语言模型在Summit超级计算机上使用5616个GPU和最多1024个TPU核心进行了训练。通过降维分析发现,未标记数据生成的原始蛋白质语言模型嵌入向量捕捉到了一些蛋白质序列的生物物理特征。我们验证了将这些嵌入向量作为唯一输入用于后续任务的优势。第一个任务是对蛋白质二级结构进行逐残基预测(三状态准确性Q3=81%-87%);第二个任务是对蛋白质亚细胞定位进行逐蛋白预测(十状态准确性Q10=81%)以及膜蛋白与水溶性蛋白的分类(二状态准确性Q2=91%)。对于逐残基预测任务,最具有信息量的嵌入向量(ProtT5)首次在不使用进化信息的情况下超越了现有最佳方法,从而避免了昂贵的数据库搜索。综合来看,这些结果表明蛋白质语言模型已经学习到了生命语言的一部分语法。为了促进未来的研究工作,我们已将我们的模型发布在https://github.com/agemagician/ProtTrans。
代码仓库
agemagician/ProtTrans
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| protein-secondary-structure-prediction-on-1 | ProtT5-XL-UniRef50 | Q3: 0.86 Q8: 0.74 |
| protein-secondary-structure-prediction-on-1 | ProtT5-XL-BFD | Q3: 0.84 Q8: 0.71 |
| protein-secondary-structure-prediction-on-1 | ProtBert-BFD | Q3: 0.83 Q8: 0.7 |
| protein-secondary-structure-prediction-on-5 | ProtT5-XL-UniRef50 | Q3: 0.81 Q8: 0.70 |
| protein-secondary-structure-prediction-on-5 | ProtBert-BFD | Q3: 0.76 Q8: 0.65 |
| protein-secondary-structure-prediction-on-5 | ProtT5-XL-BFD | Q3: 0.77 Q8: 0.66 |
| protein-secondary-structure-prediction-on-6 | ProtT5-XL-UniRef50 | Q3: 0.87 Q8: 0.77 |
| protein-secondary-structure-prediction-on-6 | ProtBert-BFD | Q3: 0.84 Q8: 0.73 |
| protein-secondary-structure-prediction-on-6 | ProtT5-XL-BFD | Q3: 0.85 Q8: 0.74 |