
摘要
生成预训练变换器(Generative Pre-trained Transformer, GPT)在自然语言处理领域取得了巨大成功,相关技术已被应用于分子建模。鉴于文本是科学发现最重要的记录形式之一,本文提出了一种统一的文本和分子语言模型——MolXPT,该模型基于包含文本的SMILES(分子序列表示法)进行预训练。具体而言,我们在每个序列中检测出分子名称,并将其替换为相应的SMILES表示。通过这种方式,SMILES可以从周围的文本中获取信息,反之亦然。上述包裹后的序列、来自PubMed的文本序列以及来自PubChem的SMILES序列均被输入到一个语言模型中进行预训练。实验结果表明,MolXPT在MoleculeNet上的分子性质预测任务中优于强大的基线模型,在使用不到其一半参数的情况下,其在文本-分子翻译任务中的表现与最佳模型相当,并且能够在无需微调的情况下实现零样本分子生成。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecular-property-prediction-on-bace-1 | MolXPT | ROC-AUC: 88.4 |
| molecular-property-prediction-on-bbbp-1 | MolXPT | ROC-AUC: 80.5 ± 0.5 |
| molecular-property-prediction-on-clintox-1 | MolXPT | ROC-AUC: 95.3±0.2 |
| molecular-property-prediction-on-hiv-dataset | MolXPT | AUC: 0.781 |
| molecular-property-prediction-on-sider-1 | MolXPT | ROC-AUC: 71.7 |
| molecular-property-prediction-on-tox21-1 | MolXPT | ROC-AUC: 77.1 |
| molecule-captioning-on-chebi-20 | MolXPT | BLEU-2: 59.4 BLEU-4: 50.5 METEOR: 62.6 ROUGE-1: 66 ROUGE-2: 51.1 ROUGE-L: 59.7 Text2Mol: 59.4 |
| text-based-de-novo-molecule-generation-on | MolXPT | Exact Match: 21.5 Frechet ChemNet Distance (FCD): 0.45 MACCS FTS: 85.9 Morgan FTS: 66.7 Parameter Count: 350000000 RDK FTS: 75.7 Text2Mol: 57.8 Validity: 98.3 |