3 个月前

针对蛋白质序列和小分子的线性扩展核方法在性能上优于深度学习,同时提供不确定性量化和更优的可解释性

针对蛋白质序列和小分子的线性扩展核方法在性能上优于深度学习,同时提供不确定性量化和更优的可解释性

摘要

高斯过程(Gaussian Process, GP)是一种贝叶斯模型,在机器学习的回归任务中具有诸多优势,例如能够可靠地量化不确定性,并提升模型的可解释性。然而,其广泛应用受到两个主要因素的限制:计算成本过高,以及难以适应序列数据(如氨基酸序列和核苷酸序列)和图结构数据(如表示小分子的图)的分析。在本研究中,我们提出了一种高效且可扩展的高斯过程建模方法,并开发了计算复杂度与图或序列规模呈线性关系的快速卷积核。我们通过构建一个名为xGPR的开源Python库实现了上述改进。我们在20个基准任务上将xGPR的性能与多种深度学习模型的报告结果进行了对比,涵盖小分子、蛋白质序列及表格数据等多种类型。结果表明,xGPR在保持高度竞争力的同时,训练时间显著缩短。此外,我们还为序列和图数据设计了新型核函数,并验证了在预测蛋白质和小分子关键性质方面,xGPR通常优于卷积神经网络(CNN)等典型深度学习模型。尤为重要的是,xGPR能够提供传统深度学习模型无法获得的不确定性估计信息。同时,xGPR还生成输入数据的低维表示,可用于聚类分析和数据可视化。这些结果表明,xGPR是一种强大且通用的工具,在蛋白质工程和药物发现等领域具有广泛的应用潜力。

代码仓库

jlparki/xgpr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
formation-energy-on-qm9xGPR -- Gaussian process, graph convolution kernel
MAE: 0.167

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
针对蛋白质序列和小分子的线性扩展核方法在性能上优于深度学习,同时提供不确定性量化和更优的可解释性 | 论文 | HyperAI超神经