
摘要
我们提出了用于化学分类任务的elEmBERT模型。该模型基于深度学习技术,采用多层编码器架构。我们在有机化合物、无机化合物及晶体化合物数据集上展示了该方法所具备的潜力。具体而言,我们利用Matbench和Moleculenet基准数据集对模型进行了开发与测试,其中涵盖了晶体性质预测以及与药物设计相关的任务。此外,我们还对化学化合物的向量表示进行了深入分析,揭示了结构数据中潜在的模式特征。实验结果表明,该模型展现出卓越的预测能力,并在分子与材料数据集上均具有广泛的适用性。例如,在Tox21数据集上,模型平均精度达到96%,较此前最优结果提升了10%。
代码仓库
dmamur/elembert
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| drug-discovery-on-bace | elEmBERT-V1 | AUC: 0.856 |
| drug-discovery-on-bbbp | elEmBERT-V1 | AUC: 0.905 |
| drug-discovery-on-sider | elEmBERT-V1 | AUC: 0.778 |
| drug-discovery-on-tox21 | elEmBERT-V1 | AUC: 0.961 |