
摘要
有效的分子表示学习对于促进分子性质预测具有重要意义,而分子性质预测是制药与材料工业中的基础性任务。近年来,图神经网络(Graph Neural Networks, GNNs)在分子表示学习领域的应用展现出巨大潜力。此外,一些最新研究也成功将自监督学习方法应用于GNN的预训练,以缓解标注分子数据不足的问题。然而,现有GNN模型及其预训练策略通常将分子视为拓扑图结构数据,未能充分挖掘分子的几何信息。事实上,分子的三维(3D)空间结构,即分子几何构型,是决定其物理、化学及生物性质的最关键因素之一。为此,我们提出了一种新型的几何增强型分子表示学习方法——化学表示学习(Chemical Representation Learning, ChemRL)框架下的GEM(Geometry Enhanced Molecular representation learning)。首先,我们设计了一种基于几何信息的GNN架构,能够同时建模分子中的原子、化学键以及键角关系。具体而言,我们为每个分子构建了双图结构:第一个图用于编码原子-键之间的关系;第二个图则用于编码键角之间的关系。在此基础上,我们进一步提出了若干新颖的几何层级自监督学习策略,通过利用分子局部与全局的3D结构信息,有效学习其空间特征。我们在多个分子基准数据集上将ChemRL-GEM与多种当前最先进的(State-of-the-Art, SOTA)方法进行了对比,实验结果表明,ChemRL-GEM在回归与分类任务中均显著优于所有基线方法。例如,在回归任务中,相较于现有SOTA方法,ChemRL-GEM平均性能提升达8.8%,充分验证了所提方法的优越性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecular-property-prediction-on | ChemRL-GEM | RMSE: 0.66 |
| molecular-property-prediction-on-bace-1 | ChemRL-GEM | ROC-AUC: 85.6 |
| molecular-property-prediction-on-bbbp-1 | ChemRL-GEM | ROC-AUC: 72.4 |
| molecular-property-prediction-on-clintox-1 | ChemRL-GEM | Molecules (M): 20 ROC-AUC: 90.1 |
| molecular-property-prediction-on-esol | ChemRL-GEM | RMSE: 0.798 |
| molecular-property-prediction-on-freesolv | ChemRL-GEM | RMSE: 1.877 |
| molecular-property-prediction-on-qm7 | ChemRL-GEM | MAE: 58.9 |
| molecular-property-prediction-on-qm8 | ChemRL-GEM | MAE: 0.0171 |
| molecular-property-prediction-on-qm9 | ChemRL-GEM | MAE: 0.00746 |
| molecular-property-prediction-on-sider-1 | ChemRL-GEM | ROC-AUC: 67.2 |
| molecular-property-prediction-on-tox21-1 | ChemRL-GEM | ROC-AUC: 78.1 |
| molecular-property-prediction-on-toxcast-1 | ChemRL-GEM | ROC-AUC: 69.2 |