
摘要
治疗学机器学习是一个充满创新和影响潜力的新兴领域。然而,该领域的进步需要制定有意义的学习任务并精心整理数据集。在此,我们介绍治疗学数据共享平台(Therapeutics Data Commons, TDC),这是首个系统性访问和评估整个治疗学范围内的机器学习的统一平台。截至目前,TDC 包含了 66 个适用于人工智能的数据集,涵盖了 22 项学习任务,并涉及安全有效药物的发现和开发过程。TDC 还提供了一个工具和社区资源生态系统,包括 33 种数据功能和类型的数据分割方法、23 种系统性模型评估策略、17 种分子生成算法以及 29 个公开排行榜。所有资源均通过一个开放的 Python 库进行集成和访问。我们在选定的数据集上进行了广泛的实验,结果表明,即使是最强大的算法在解决关键治疗学挑战方面也存在不足,这些挑战包括真实数据集的分布变化、异质数据的多尺度建模以及对新数据点的稳健泛化能力。我们设想 TDC 能够促进算法和科学的进步,并显著加速机器学习模型的开发、验证及向生物医学和临床应用的转化。TDC 是一项开放科学倡议,可访问网址为 https://tdcommons.ai。
代码仓库
yzhao062/yzhao062
pytorch
GitHub 中提及
mims-harvard/TDC
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| molecular-property-prediction-on-bbbp-1 | AttentiveFP | ROC-AUC: 85.5 |
| molecular-property-prediction-on-bbbp-1 | AttrMasking | ROC-AUC: 89.2 |
| tdc-admet-benchmarking-group-on-tdcommons | AttentiveFP | TDC.AMES: 0.814 TDC.BBB_Martins: 0.855 TDC.Bioavailability_Ma: 0.632 TDC.CYP2C9_Inhibition_Veith: 0.749 TDC.CYP2C9_Substrate_CarbonMangels: 0.375 TDC.CYP2D6_Inhibition_Veith: 0.646 TDC.CYP2D6_Substrate_CarbonMangels: 0.574 TDC.CYP3A4_Inhibition_Veith: 0.851 TDC.CYP3A4_Substrate_CarbonMangels: 0.576 TDC.Caco2_Wang: 0.401 TDC.Clearance_Hepatocyte_AZ: 0.289 TDC.Clearance_Microsome_AZ: 0.365 TDC.DILI: 0.886 TDC.HIA_Hou: 0.974 TDC.Half_Life_Obach: 0.085 TDC.LD50_Zhu: 0.678 TDC.Lipophilicity_AstraZeneca: 0.572 TDC.PPBR_AZ: 9.373 TDC.Pgp_Broccatelli: 0.892 TDC.Solubility_AqSolDB: 0.776 TDC.VDss_Lombardo: 0.241 TDC.hERG: 0.825 |
| tdc-admet-benchmarking-group-on-tdcommons | AttrMasking | TDC.AMES: 0.842 TDC.BBB_Martins: 0.892 TDC.Bioavailability_Ma: 0.577 TDC.CYP2C9_Inhibition_Veith: 0.829 TDC.CYP2C9_Substrate_CarbonMangels: 0.381 TDC.CYP2D6_Inhibition_Veith: 0.721 TDC.CYP2D6_Substrate_CarbonMangels: 0.704 TDC.CYP3A4_Inhibition_Veith: 0.902 TDC.CYP3A4_Substrate_CarbonMangels: 0.582 TDC.Caco2_Wang: 0.546 TDC.Clearance_Hepatocyte_AZ: 0.413 TDC.Clearance_Microsome_AZ: 0.585 TDC.DILI: 0.919 TDC.HIA_Hou: 0.978 TDC.Half_Life_Obach: 0.151 TDC.LD50_Zhu: 0.685 TDC.Lipophilicity_AstraZeneca: 0.547 TDC.PPBR_AZ: 10.075 TDC.Pgp_Broccatelli: 0.929 TDC.Solubility_AqSolDB: 1.026 TDC.VDss_Lombardo: 0.559 TDC.hERG: 0.778 |
| tdc-admet-benchmarking-group-on-tdcommons | GCN | TDC.AMES: 0.818 TDC.BBB_Martins: 0.842 TDC.Bioavailability_Ma: 0.566 TDC.CYP2C9_Inhibition_Veith: 0.735 TDC.CYP2C9_Substrate_CarbonMangels: 0.344 TDC.CYP2D6_Inhibition_Veith: 0.616 TDC.CYP2D6_Substrate_CarbonMangels: 0.617 TDC.CYP3A4_Inhibition_Veith: 0.840 TDC.CYP3A4_Substrate_CarbonMangels: 0.590 TDC.Caco2_Wang: 0.599 TDC.Clearance_Hepatocyte_AZ: 0.366 TDC.Clearance_Microsome_AZ: 0.532 TDC.DILI: 0.859 TDC.HIA_Hou: 0.936 TDC.Half_Life_Obach: 0.239 TDC.LD50_Zhu: 0.649 TDC.Lipophilicity_AstraZeneca: 0.541 TDC.PPBR_AZ: 10.194 TDC.Pgp_Broccatelli: 0.895 TDC.Solubility_AqSolDB: 0.907 TDC.VDss_Lombardo: 0.457 TDC.hERG: 0.738 |
| tdc-admet-benchmarking-group-on-tdcommons | MLP-RDKit2D | TDC.AMES: 0.823 TDC.BBB_Martins: 0.889 TDC.Bioavailability_Ma: 0.672 TDC.CYP2C9_Inhibition_Veith: 0.742 TDC.CYP2C9_Substrate_CarbonMangels: 0.360 TDC.CYP2D6_Inhibition_Veith: 0.616 TDC.CYP2D6_Substrate_CarbonMangels: 0.677 TDC.CYP3A4_Inhibition_Veith: 0.829 TDC.CYP3A4_Substrate_CarbonMangels: 0.639 TDC.Caco2_Wang: 0.393 TDC.Clearance_Hepatocyte_AZ: 0.382 TDC.Clearance_Microsome_AZ: 0.586 TDC.DILI: 0.875 TDC.HIA_Hou: 0.972 TDC.Half_Life_Obach: 0.184 TDC.LD50_Zhu: 0.678 TDC.Lipophilicity_AstraZeneca: 0.574 TDC.PPBR_AZ: 9.994 TDC.Pgp_Broccatelli: 0.918 TDC.Solubility_AqSolDB: 0.827 TDC.VDss_Lombardo: 0.561 TDC.hERG: 0.841 |