
摘要
大型预训练模型(如GPT-3)通过利用自监督学习,成功捕捉到具有代表性的语言表征,显著推动了现代自然语言处理的发展,使得这些表征能够高效地微调至多种下游任务。本文探讨了将此类进展迁移至分子机器学习领域的可能性,构建了一个基于SMILES语言的化学基础模型——ChemBERTa-2。尽管分子预测任务中的标注数据通常十分稀缺,但SMILES字符串的大型数据库却广泛可得。在本研究中,我们在ChemBERTa的基础上优化了预训练流程,通过调整超参数并系统评估不同预训练数据集规模(最大达PubChem中的7700万种化合物)下的多任务学习与自监督学习策略。据我们所知,该7700万化合物的数据集是迄今用于分子预训练的最大规模数据集之一。实验结果表明,得益于上述预训练优化,ChemBERTa-2在MoleculeNet基准测试套件上的表现已达到当前最先进模型的水平。此外,我们进一步分析了预训练性能的提升在多大程度上可转化为下游任务性能的改善。
代码仓库
seyonechithrananda/bert-loves-chemistry
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecular-property-prediction-on | ChemBERTa-2 (MTR-77M) | RMSE: 0.798 |
| molecular-property-prediction-on-bace-1 | ChemBERTa-2 (MTR-77M) | RMSE: 1.363 ROC-AUC: 79.9 |
| molecular-property-prediction-on-bbbp-1 | ChemBERTa-2 (MTR-77M) | ROC-AUC: 72.8 |
| molecular-property-prediction-on-clearance | ChemBERTa-2 (MTR-77M) | RMSE: 48.515 |
| molecular-property-prediction-on-clintox-1 | ChemBERTa-2 (MTR-77M) | Molecules (M): 77 ROC-AUC: 56.3 |
| molecular-property-prediction-on-esol | ChemBERTa-2 (MTR-77M) | RMSE: 0.889 |