
摘要
图神经网络正在成为建模分子图的有前景方法,其中节点和边分别对应原子和化学键。最近的研究表明,当可以获取三维分子几何结构(如键长和键角)时,分子性质预测任务的准确性可以得到提高。然而,计算三维分子几何结构需要量子计算,这在计算上是难以承受的。例如,使用密度泛函理论(DFT)准确计算一个小分子的三维几何结构需要数小时的计算时间。在此,我们提出了一种基于机器学习方法从分子图中预测基态三维几何结构的方法。为了使这一目标可行,我们开发了一个基准测试集,称为Molecule3D,该数据集包含约400万个通过DFT获得的精确基态几何结构的分子。我们还提供了一套用于数据处理、分割、训练和评估等任务的软件工具。具体而言,我们建议使用四种度量指标来评估预测几何结构的误差和有效性。我们实现了两种基线方法,一种是预测原子之间的成对距离,另一种是预测原子在三维空间中的坐标。实验结果表明,与使用RDKit生成三维几何结构相比,我们的方法可以在显著降低计算成本的情况下达到相当的预测精度。我们的Molecule3D作为MoleculeX软件库的一个模块发布(https://github.com/divelab/MoleculeX)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-geometry-prediction-on-molecule3d-test | DeeperGCN-DAGNN + Coordinates | MAE: 0.571 RMSE: 0.961 Validity: 100 Validity3D: 100 |
| 3d-geometry-prediction-on-molecule3d-test | DeeperGCN-DAGNN + Distance | MAE: 0.483 RMSE: 0.753 Validity: 1.69 Validity3D: 0.03 |
| 3d-geometry-prediction-on-molecule3d-val | DeeperGCN-DAGNN + Distance | MAE: 0.482 RMSE: 0.749 Validity: 1.71 Validity3D: 0.02 |
| 3d-geometry-prediction-on-molecule3d-val | DeeperGCN-DAGNN + Coordinates | MAE: 0.509 RMSE: 0.849 Validity: 100 Validity3D: 100 |