4 个月前

ProtTrans:通过自监督深度学习和高性能计算破解生命代码的语言

ProtTrans:通过自监督深度学习和高性能计算破解生命代码的语言

摘要

计算生物学和生物信息学提供了来自蛋白质序列的海量数据金矿,非常适合从自然语言处理(NLP)中借鉴的语言模型(LM)。这些语言模型以较低的推理成本达到了新的预测前沿。在本研究中,我们在包含多达3930亿个氨基酸的数据集上训练了两种自回归模型(Transformer-XL、XLNet)和四种自动编码器模型(BERT、Albert、Electra、T5),数据来源于UniRef和BFD数据库。这些语言模型在Summit超级计算机上使用5616个GPU和最多1024个TPU核心进行了训练。通过降维分析发现,未标记数据生成的原始蛋白质语言模型嵌入向量捕捉到了一些蛋白质序列的生物物理特征。我们验证了将这些嵌入向量作为唯一输入用于后续任务的优势。第一个任务是对蛋白质二级结构进行逐残基预测(三状态准确性Q3=81%-87%);第二个任务是对蛋白质亚细胞定位进行逐蛋白预测(十状态准确性Q10=81%)以及膜蛋白与水溶性蛋白的分类(二状态准确性Q2=91%)。对于逐残基预测任务,最具有信息量的嵌入向量(ProtT5)首次在不使用进化信息的情况下超越了现有最佳方法,从而避免了昂贵的数据库搜索。综合来看,这些结果表明蛋白质语言模型已经学习到了生命语言的一部分语法。为了促进未来的研究工作,我们已将我们的模型发布在https://github.com/agemagician/ProtTrans。

代码仓库

基准测试

基准方法指标
protein-secondary-structure-prediction-on-1ProtT5-XL-UniRef50
Q3: 0.86
Q8: 0.74
protein-secondary-structure-prediction-on-1ProtT5-XL-BFD
Q3: 0.84
Q8: 0.71
protein-secondary-structure-prediction-on-1ProtBert-BFD
Q3: 0.83
Q8: 0.7
protein-secondary-structure-prediction-on-5ProtT5-XL-UniRef50
Q3: 0.81
Q8: 0.70
protein-secondary-structure-prediction-on-5ProtBert-BFD
Q3: 0.76
Q8: 0.65
protein-secondary-structure-prediction-on-5ProtT5-XL-BFD
Q3: 0.77
Q8: 0.66
protein-secondary-structure-prediction-on-6ProtT5-XL-UniRef50
Q3: 0.87
Q8: 0.77
protein-secondary-structure-prediction-on-6ProtBert-BFD
Q3: 0.84
Q8: 0.73
protein-secondary-structure-prediction-on-6ProtT5-XL-BFD
Q3: 0.85
Q8: 0.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ProtTrans:通过自监督深度学习和高性能计算破解生命代码的语言 | 论文 | HyperAI超神经