3 个月前

基于双向LSTM的SMILES数据加速药物安全评估

基于双向LSTM的SMILES数据加速药物安全评估

摘要

计算方法在加速药物发现进程方面具有重要作用。药物发现通常包括靶点识别与验证、先导化合物发现以及先导化合物优化等多个阶段。在先导化合物优化阶段,需评估候选化合物的吸收、分布、代谢、排泄及毒性(ADMET)特性。针对先导化合物毒性与溶解度的预测问题,本文采用简化分子输入线性系统(Simplified Molecular Input Line Entry System, SMILES)表示分子结构。在处理SMILES数据的多种方法中,本文提出的方法基于序列建模策略,构建了一种双向长短期记忆网络(Bi-Directional Long Short Term Memory, BiLSTM),该模型是循环神经网络(Recurrent Neural Network, RNN)的一种变体,能够从正向和反向两个方向对分子序列进行处理,从而全面分析分子结构特征。本研究旨在捕捉SMILES字符串中编码的序列模式,并利用这些模式预测分子的毒性。在ClinTox数据集上,所提出的模型在ROC曲线下面积(AUC)达到0.96,优于此前的TrimNet和预训练图神经网络(Pre-training Graph Neural Networks, GNN)等方法。此外,在FreeSolv数据集上,该模型在溶解度预测任务中表现出色,均方根误差(RMSE)低至1.22,显著优于现有模型。

代码仓库

基准测试

基准方法指标
drug-discovery-on-clintoxBiLSTM
AUC: 0.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于双向LSTM的SMILES数据加速药物安全评估 | 论文 | HyperAI超神经