3 个月前

ChemBERTa-2:迈向化学基础模型

ChemBERTa-2:迈向化学基础模型

摘要

大型预训练模型(如GPT-3)通过利用自监督学习,成功捕捉到具有代表性的语言表征,显著推动了现代自然语言处理的发展,使得这些表征能够高效地微调至多种下游任务。本文探讨了将此类进展迁移至分子机器学习领域的可能性,构建了一个基于SMILES语言的化学基础模型——ChemBERTa-2。尽管分子预测任务中的标注数据通常十分稀缺,但SMILES字符串的大型数据库却广泛可得。在本研究中,我们在ChemBERTa的基础上优化了预训练流程,通过调整超参数并系统评估不同预训练数据集规模(最大达PubChem中的7700万种化合物)下的多任务学习与自监督学习策略。据我们所知,该7700万化合物的数据集是迄今用于分子预训练的最大规模数据集之一。实验结果表明,得益于上述预训练优化,ChemBERTa-2在MoleculeNet基准测试套件上的表现已达到当前最先进模型的水平。此外,我们进一步分析了预训练性能的提升在多大程度上可转化为下游任务性能的改善。

基准测试

基准方法指标
molecular-property-prediction-onChemBERTa-2 (MTR-77M)
RMSE: 0.798
molecular-property-prediction-on-bace-1ChemBERTa-2 (MTR-77M)
RMSE: 1.363
ROC-AUC: 79.9
molecular-property-prediction-on-bbbp-1ChemBERTa-2 (MTR-77M)
ROC-AUC: 72.8
molecular-property-prediction-on-clearanceChemBERTa-2 (MTR-77M)
RMSE: 48.515
molecular-property-prediction-on-clintox-1ChemBERTa-2 (MTR-77M)
Molecules (M): 77
ROC-AUC: 56.3
molecular-property-prediction-on-esolChemBERTa-2 (MTR-77M)
RMSE: 0.889

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ChemBERTa-2:迈向化学基础模型 | 论文 | HyperAI超神经