4 个月前

MolXPT:用文本包裹分子以进行生成式预训练

MolXPT:用文本包裹分子以进行生成式预训练

摘要

生成预训练变换器(Generative Pre-trained Transformer, GPT)在自然语言处理领域取得了巨大成功,相关技术已被应用于分子建模。鉴于文本是科学发现最重要的记录形式之一,本文提出了一种统一的文本和分子语言模型——MolXPT,该模型基于包含文本的SMILES(分子序列表示法)进行预训练。具体而言,我们在每个序列中检测出分子名称,并将其替换为相应的SMILES表示。通过这种方式,SMILES可以从周围的文本中获取信息,反之亦然。上述包裹后的序列、来自PubMed的文本序列以及来自PubChem的SMILES序列均被输入到一个语言模型中进行预训练。实验结果表明,MolXPT在MoleculeNet上的分子性质预测任务中优于强大的基线模型,在使用不到其一半参数的情况下,其在文本-分子翻译任务中的表现与最佳模型相当,并且能够在无需微调的情况下实现零样本分子生成。

基准测试

基准方法指标
molecular-property-prediction-on-bace-1MolXPT
ROC-AUC: 88.4
molecular-property-prediction-on-bbbp-1MolXPT
ROC-AUC: 80.5 ± 0.5
molecular-property-prediction-on-clintox-1MolXPT
ROC-AUC: 95.3±0.2
molecular-property-prediction-on-hiv-datasetMolXPT
AUC: 0.781
molecular-property-prediction-on-sider-1MolXPT
ROC-AUC: 71.7
molecular-property-prediction-on-tox21-1MolXPT
ROC-AUC: 77.1
molecule-captioning-on-chebi-20MolXPT
BLEU-2: 59.4
BLEU-4: 50.5
METEOR: 62.6
ROUGE-1: 66
ROUGE-2: 51.1
ROUGE-L: 59.7
Text2Mol: 59.4
text-based-de-novo-molecule-generation-onMolXPT
Exact Match: 21.5
Frechet ChemNet Distance (FCD): 0.45
MACCS FTS: 85.9
Morgan FTS: 66.7
Parameter Count: 350000000
RDK FTS: 75.7
Text2Mol: 57.8
Validity: 98.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MolXPT:用文本包裹分子以进行生成式预训练 | 论文 | HyperAI超神经