
摘要
计算方法在加速药物发现进程方面具有重要作用。药物发现通常包括靶点识别与验证、先导化合物发现以及先导化合物优化等多个阶段。在先导化合物优化阶段,需评估候选化合物的吸收、分布、代谢、排泄及毒性(ADMET)特性。针对先导化合物毒性与溶解度的预测问题,本文采用简化分子输入线性系统(Simplified Molecular Input Line Entry System, SMILES)表示分子结构。在处理SMILES数据的多种方法中,本文提出的方法基于序列建模策略,构建了一种双向长短期记忆网络(Bi-Directional Long Short Term Memory, BiLSTM),该模型是循环神经网络(Recurrent Neural Network, RNN)的一种变体,能够从正向和反向两个方向对分子序列进行处理,从而全面分析分子结构特征。本研究旨在捕捉SMILES字符串中编码的序列模式,并利用这些模式预测分子的毒性。在ClinTox数据集上,所提出的模型在ROC曲线下面积(AUC)达到0.96,优于此前的TrimNet和预训练图神经网络(Pre-training Graph Neural Networks, GNN)等方法。此外,在FreeSolv数据集上,该模型在溶解度预测任务中表现出色,均方根误差(RMSE)低至1.22,显著优于现有模型。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| drug-discovery-on-clintox | BiLSTM | AUC: 0.97 |