3 个月前

知识精炼驱动的蛋白质设计:突破蛋白质设计的极限

知识精炼驱动的蛋白质设计:突破蛋白质设计的极限

摘要

近期研究在蛋白质设计领域取得了具有竞争力的成果,旨在寻找能够折叠成目标结构的氨基酸序列。然而,大多数现有方法忽视了预测置信度的重要性,未能覆盖广阔的蛋白质序列空间,且未充分融入常见的蛋白质先验知识。鉴于预训练模型在多种蛋白质相关任务中取得的显著成功,以及恢复率与预测置信度之间高度相关这一事实,我们提出疑问:是否可以通过引入此类知识进一步突破蛋白质设计的性能极限?为此,我们提出一种知识感知模块,用于优化低质量残基的预测结果。同时,我们设计了一种记忆检索机制,可节省超过50%的训练时间。我们在CATH、TS50和TS500三个基准数据集上对所提方法进行了广泛评估,结果表明,我们的Knowledge-Design方法在CATH数据集上的性能相较先前的PiFold方法提升了约9%。特别地,Knowledge-Design是首个在CATH、TS50和TS500三个基准上均实现超过60%恢复率的方法。此外,我们还提供了详尽的分析以验证所提方法的有效性。相关代码将公开发布。

代码仓库

A4Bio/OpenCPD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
protein-design-on-cath-4-2GraphTrans
Perplexity: 6.63
Sequence Recovery %(All): 35.82
protein-design-on-cath-4-2StructGNN
Perplexity: 6.4
Sequence Recovery %(All): 35.91
protein-design-on-cath-4-2ProteinMPNN
Perplexity: 4.61
Sequence Recovery %(All): 45.96
protein-design-on-cath-4-2Knowledge-Design
Perplexity: 3.46
Sequence Recovery %(All): 60.77
protein-design-on-cath-4-2AlphaDesign
Perplexity: 6.3
Sequence Recovery %(All): 41.31
protein-design-on-cath-4-2GVP
Perplexity: 5.36
Sequence Recovery %(All): 39.47
protein-design-on-cath-4-2PiFold
Perplexity: 4.55
Sequence Recovery %(All): 51.66
protein-design-on-cath-4-2GCA
Perplexity: 6.05
Sequence Recovery %(All): 37.64
protein-design-on-cath-4-3ESM-IF
Perplexity: 6.44
Sequence Recovery %(All): 38.3
protein-design-on-cath-4-3GVP-large
Perplexity: 6.17
Sequence Recovery %(All): 39.2
word-sense-disambiguation-on-ts50SPIN
Sequence Recovery %(All): 30.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
知识精炼驱动的蛋白质设计:突破蛋白质设计的极限 | 论文 | HyperAI超神经