4 个月前

具有结构信息的深度双向蛋白质序列表示的预训练

具有结构信息的深度双向蛋白质序列表示的预训练

摘要

为了弥合未标记蛋白序列与已标记蛋白序列数量之间呈指数增长的差距,几项研究采用了半监督学习方法进行蛋白序列建模。在这些研究中,模型首先使用大量未标记数据进行预训练,然后将学到的表示迁移到各种下游任务中。大多数预训练方法仅依赖于语言模型,通常表现出有限的性能。本文介绍了一种新的预训练方案,称为PLUS(Protein sequence representations Learned Using Structural information),即利用结构信息学习的蛋白序列表示。PLUS包括掩码语言模型和一个互补的蛋白质特异性预训练任务,即同家族预测。PLUS可以用于预训练多种模型架构。在这项工作中,我们使用PLUS对双向循环神经网络进行了预训练,并将所得模型称为PLUS-RNN。实验结果表明,在七个广泛使用的蛋白质生物学任务中的六个任务上,PLUS-RNN的表现优于仅通过语言模型预训练的其他类似规模的模型。此外,我们还展示了定性解释分析的结果,以说明PLUS-RNN的优势。PLUS提供了一种新颖的方法来利用未标记蛋白质之间的进化关系,并且适用于各种蛋白质生物学任务。我们预计未标记和已标记蛋白质数量之间的差距将继续呈指数增长,而所提出的预训练方法将在未来发挥更大的作用。

代码仓库

mswzeus/PLUS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
task-1-grouping-on-ocwBERT (BASE)
Wasserstein Distance (WD): 89.5 ± .4
# Correct Groups: 22 ± 2
# Solved Walls: 0 ± 0
Adjusted Mutual Information (AMI): 8.1 ± .4
Adjusted Rand Index (ARI): 6.4 ± .3
Fowlkes Mallows Score (FMS): 25.1 ± .2
task-1-grouping-on-ocwBERT (LARGE)
Wasserstein Distance (WD): 88.3 ± .5
# Correct Groups: 33 ± 2
# Solved Walls: 0 ± 0
Adjusted Mutual Information (AMI): 10.3 ± .3
Adjusted Rand Index (ARI): 8.2 ± .3
Fowlkes Mallows Score (FMS): 26.5 ± .2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
具有结构信息的深度双向蛋白质序列表示的预训练 | 论文 | HyperAI超神经