
摘要
为了弥合未标记蛋白序列与已标记蛋白序列数量之间呈指数增长的差距,几项研究采用了半监督学习方法进行蛋白序列建模。在这些研究中,模型首先使用大量未标记数据进行预训练,然后将学到的表示迁移到各种下游任务中。大多数预训练方法仅依赖于语言模型,通常表现出有限的性能。本文介绍了一种新的预训练方案,称为PLUS(Protein sequence representations Learned Using Structural information),即利用结构信息学习的蛋白序列表示。PLUS包括掩码语言模型和一个互补的蛋白质特异性预训练任务,即同家族预测。PLUS可以用于预训练多种模型架构。在这项工作中,我们使用PLUS对双向循环神经网络进行了预训练,并将所得模型称为PLUS-RNN。实验结果表明,在七个广泛使用的蛋白质生物学任务中的六个任务上,PLUS-RNN的表现优于仅通过语言模型预训练的其他类似规模的模型。此外,我们还展示了定性解释分析的结果,以说明PLUS-RNN的优势。PLUS提供了一种新颖的方法来利用未标记蛋白质之间的进化关系,并且适用于各种蛋白质生物学任务。我们预计未标记和已标记蛋白质数量之间的差距将继续呈指数增长,而所提出的预训练方法将在未来发挥更大的作用。
代码仓库
mswzeus/PLUS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| task-1-grouping-on-ocw | BERT (BASE) | Wasserstein Distance (WD): 89.5 ± .4 # Correct Groups: 22 ± 2 # Solved Walls: 0 ± 0 Adjusted Mutual Information (AMI): 8.1 ± .4 Adjusted Rand Index (ARI): 6.4 ± .3 Fowlkes Mallows Score (FMS): 25.1 ± .2 |
| task-1-grouping-on-ocw | BERT (LARGE) | Wasserstein Distance (WD): 88.3 ± .5 # Correct Groups: 33 ± 2 # Solved Walls: 0 ± 0 Adjusted Mutual Information (AMI): 10.3 ± .3 Adjusted Rand Index (ARI): 8.2 ± .3 Fowlkes Mallows Score (FMS): 26.5 ± .2 |