{Mingyue ZhengHualiang JiangKaixian ChenXiaomin LuoTianbiao YangXiaohong LiuFeisheng ZhongDingyan WangXiaoqin TanLifan Chen}
摘要
动机在药物发现与化学生物组学研究中,识别化合物-蛋白相互作用(Compound-Protein Interaction, CPI)是一项关键任务。然而,大量潜在的生物靶点蛋白缺乏三维结构信息,这促使人们亟需发展仅基于蛋白序列信息进行CPI预测的方法。然而,基于序列的CPI模型可能面临一系列特定挑战,包括使用不恰当的数据集、隐含的配体偏差(ligand bias)以及数据集划分方式不合理等问题,这些因素可能导致模型预测性能被严重高估。结果为应对上述问题,我们构建了专用于CPI预测的新数据集,提出了一种新型的Transformer神经网络模型——TransformerCPI,并引入更为严格的标签反转实验(label reversal experiment),以检验模型是否真正学习到了真实的相互作用特征。实验结果表明,TransformerCPI在新构建的数据集上表现出显著提升的预测性能。此外,该模型具备可解释性,能够通过反卷积分析突出显示蛋白序列中关键的相互作用区域以及化合物分子中的重要原子位点,为后续配体结构优化提供具有实际价值的化学生物学指导。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| drug-discovery-on-bindingdb | TransformerCPI | AUC: 0.937 |
| drug-discovery-on-lit-pcba-aldh1 | TransformerCPI | AUC: 0.694 |
| drug-discovery-on-lit-pcba-esr1-ant | TransformerCPI | AUC: 0.616 |
| drug-discovery-on-lit-pcba-kat2a | TransformerCPI | AUC: 0.650 |
| drug-discovery-on-lit-pcba-mapk1 | TransformerCPI | AUC: 0.683 |