4 个月前

Therapeutics Data Commons:用于药物发现和开发的机器学习数据集和任务

Therapeutics Data Commons:用于药物发现和开发的机器学习数据集和任务

摘要

治疗学机器学习是一个充满创新和影响潜力的新兴领域。然而,该领域的进步需要制定有意义的学习任务并精心整理数据集。在此,我们介绍治疗学数据共享平台(Therapeutics Data Commons, TDC),这是首个系统性访问和评估整个治疗学范围内的机器学习的统一平台。截至目前,TDC 包含了 66 个适用于人工智能的数据集,涵盖了 22 项学习任务,并涉及安全有效药物的发现和开发过程。TDC 还提供了一个工具和社区资源生态系统,包括 33 种数据功能和类型的数据分割方法、23 种系统性模型评估策略、17 种分子生成算法以及 29 个公开排行榜。所有资源均通过一个开放的 Python 库进行集成和访问。我们在选定的数据集上进行了广泛的实验,结果表明,即使是最强大的算法在解决关键治疗学挑战方面也存在不足,这些挑战包括真实数据集的分布变化、异质数据的多尺度建模以及对新数据点的稳健泛化能力。我们设想 TDC 能够促进算法和科学的进步,并显著加速机器学习模型的开发、验证及向生物医学和临床应用的转化。TDC 是一项开放科学倡议,可访问网址为 https://tdcommons.ai。

代码仓库

yzhao062/yzhao062
pytorch
GitHub 中提及
mims-harvard/TDC
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecular-property-prediction-on-bbbp-1AttentiveFP
ROC-AUC: 85.5
molecular-property-prediction-on-bbbp-1AttrMasking
ROC-AUC: 89.2
tdc-admet-benchmarking-group-on-tdcommonsAttentiveFP
TDC.AMES: 0.814
TDC.BBB_Martins: 0.855
TDC.Bioavailability_Ma: 0.632
TDC.CYP2C9_Inhibition_Veith: 0.749
TDC.CYP2C9_Substrate_CarbonMangels: 0.375
TDC.CYP2D6_Inhibition_Veith: 0.646
TDC.CYP2D6_Substrate_CarbonMangels: 0.574
TDC.CYP3A4_Inhibition_Veith: 0.851
TDC.CYP3A4_Substrate_CarbonMangels: 0.576
TDC.Caco2_Wang: 0.401
TDC.Clearance_Hepatocyte_AZ: 0.289
TDC.Clearance_Microsome_AZ: 0.365
TDC.DILI: 0.886
TDC.HIA_Hou: 0.974
TDC.Half_Life_Obach: 0.085
TDC.LD50_Zhu: 0.678
TDC.Lipophilicity_AstraZeneca: 0.572
TDC.PPBR_AZ: 9.373
TDC.Pgp_Broccatelli: 0.892
TDC.Solubility_AqSolDB: 0.776
TDC.VDss_Lombardo: 0.241
TDC.hERG: 0.825
tdc-admet-benchmarking-group-on-tdcommonsAttrMasking
TDC.AMES: 0.842
TDC.BBB_Martins: 0.892
TDC.Bioavailability_Ma: 0.577
TDC.CYP2C9_Inhibition_Veith: 0.829
TDC.CYP2C9_Substrate_CarbonMangels: 0.381
TDC.CYP2D6_Inhibition_Veith: 0.721
TDC.CYP2D6_Substrate_CarbonMangels: 0.704
TDC.CYP3A4_Inhibition_Veith: 0.902
TDC.CYP3A4_Substrate_CarbonMangels: 0.582
TDC.Caco2_Wang: 0.546
TDC.Clearance_Hepatocyte_AZ: 0.413
TDC.Clearance_Microsome_AZ: 0.585
TDC.DILI: 0.919
TDC.HIA_Hou: 0.978
TDC.Half_Life_Obach: 0.151
TDC.LD50_Zhu: 0.685
TDC.Lipophilicity_AstraZeneca: 0.547
TDC.PPBR_AZ: 10.075
TDC.Pgp_Broccatelli: 0.929
TDC.Solubility_AqSolDB: 1.026
TDC.VDss_Lombardo: 0.559
TDC.hERG: 0.778
tdc-admet-benchmarking-group-on-tdcommonsGCN
TDC.AMES: 0.818
TDC.BBB_Martins: 0.842
TDC.Bioavailability_Ma: 0.566
TDC.CYP2C9_Inhibition_Veith: 0.735
TDC.CYP2C9_Substrate_CarbonMangels: 0.344
TDC.CYP2D6_Inhibition_Veith: 0.616
TDC.CYP2D6_Substrate_CarbonMangels: 0.617
TDC.CYP3A4_Inhibition_Veith: 0.840
TDC.CYP3A4_Substrate_CarbonMangels: 0.590
TDC.Caco2_Wang: 0.599
TDC.Clearance_Hepatocyte_AZ: 0.366
TDC.Clearance_Microsome_AZ: 0.532
TDC.DILI: 0.859
TDC.HIA_Hou: 0.936
TDC.Half_Life_Obach: 0.239
TDC.LD50_Zhu: 0.649
TDC.Lipophilicity_AstraZeneca: 0.541
TDC.PPBR_AZ: 10.194
TDC.Pgp_Broccatelli: 0.895
TDC.Solubility_AqSolDB: 0.907
TDC.VDss_Lombardo: 0.457
TDC.hERG: 0.738
tdc-admet-benchmarking-group-on-tdcommonsMLP-RDKit2D
TDC.AMES: 0.823
TDC.BBB_Martins: 0.889
TDC.Bioavailability_Ma: 0.672
TDC.CYP2C9_Inhibition_Veith: 0.742
TDC.CYP2C9_Substrate_CarbonMangels: 0.360
TDC.CYP2D6_Inhibition_Veith: 0.616
TDC.CYP2D6_Substrate_CarbonMangels: 0.677
TDC.CYP3A4_Inhibition_Veith: 0.829
TDC.CYP3A4_Substrate_CarbonMangels: 0.639
TDC.Caco2_Wang: 0.393
TDC.Clearance_Hepatocyte_AZ: 0.382
TDC.Clearance_Microsome_AZ: 0.586
TDC.DILI: 0.875
TDC.HIA_Hou: 0.972
TDC.Half_Life_Obach: 0.184
TDC.LD50_Zhu: 0.678
TDC.Lipophilicity_AstraZeneca: 0.574
TDC.PPBR_AZ: 9.994
TDC.Pgp_Broccatelli: 0.918
TDC.Solubility_AqSolDB: 0.827
TDC.VDss_Lombardo: 0.561
TDC.hERG: 0.841

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供