
摘要
分子表征学习(Molecular Representation Learning, MRL)因其在有限监督数据条件下实现有效学习的能力,近年来在药物设计等应用中受到广泛关注。在大多数现有的MRL方法中,分子通常被建模为一维序列标记(1D sequential tokens)或二维拓扑图(2D topology graphs),这种处理方式限制了模型对三维空间信息的利用能力,尤其使得三维几何结构的预测或生成任务几乎无法实现。为此,我们提出Uni-Mol——一种通用的分子表征学习框架,显著拓展了MRL方法的表征能力与应用范围。Uni-Mol由两个采用相同SE(3)-等变Transformer架构的模型组成:其一为基于2.09亿个分子构象预训练的分子预训练模型;其二为基于300万个候选蛋白口袋数据训练的口袋预训练模型。这两个模型可独立用于各类下游任务,在涉及蛋白-配体结合的任务中则协同使用。通过有效融合三维空间信息,Uni-Mol在15项分子性质预测任务中,有14项超越了当前最先进(SOTA)水平。此外,Uni-Mol在多项三维空间相关任务中表现优异,包括蛋白-配体结合构象预测、分子构象生成等。最后,我们验证了Uni-Mol在小样本学习场景下的适用性,成功应用于口袋可成药性预测等数据稀缺任务。相关模型与数据将公开发布于GitHub:https://github.com/dptech-corp/Uni-Mol。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecular-property-prediction-on | Uni-Mol | RMSE: 0.603 |
| molecular-property-prediction-on-bace-1 | Uni-Mol | ROC-AUC: 85.7 |
| molecular-property-prediction-on-bbbp-1 | Uni-Mol | ROC-AUC: 72.9 |
| molecular-property-prediction-on-clintox-1 | Uni-Mol | Molecules (M): 19 ROC-AUC: 91.9 |
| molecular-property-prediction-on-esol | Uni-Mol | RMSE: 0.788 |
| molecular-property-prediction-on-freesolv | Uni-Mol | RMSE: 1.620 |
| molecular-property-prediction-on-hiv-1 | Uni-Mol | ROC-AUC: 80.8 |
| molecular-property-prediction-on-muv-1 | Uni-Mol | ROC-AUC: 82.1 |
| molecular-property-prediction-on-pcba | Uni-Mol | ROC-AUC: 88.5 |
| molecular-property-prediction-on-qm7 | Uni-Mol | MAE: 41.8 |
| molecular-property-prediction-on-qm8 | Uni-Mol | MAE: 0.0156 |
| molecular-property-prediction-on-qm9 | Uni-Mol | MAE: 0.00467 |
| molecular-property-prediction-on-sider-1 | Uni-Mol | ROC-AUC: 65.9 |
| molecular-property-prediction-on-tox21-1 | Uni-Mol | ROC-AUC: 79.6 |
| molecular-property-prediction-on-toxcast-1 | Uni-Mol | ROC-AUC: 69.6 |