
摘要
机器学习(ML)的兴起为利用数据进行科学预测创造了巨大的策略潜力。对于希望在特定领域应用机器学习策略的物理科学家而言,要在众多可能性中预先评估哪种策略最为合适是一项挑战。本文概述了一项由在线社区驱动的努力,旨在探索机器学习策略空间并开发用于预测分子中原子对核磁共振(NMR)性质的算法。我们使用了一个开源数据集,并与Kaggle合作设计和举办了为期3个月的比赛,该比赛收到了来自84个国家2,700个团队提交的47,800个机器学习模型预测。在短短3周内,Kaggle社区生成的模型准确性已与我们之前发布的最佳“内部”努力相当。通过将排名靠前的预测结果线性组合构建的元集成模型,其预测准确性超过了任何单个模型,比我们之前的最先进水平提高了7-19倍。这些结果突显了变压器架构在预测量子力学(QM)分子性质方面的潜力。
代码仓库
larsbratholm/champs_kaggle
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| nmr-j-coupling-on-qm9 | Ensemble of top 400 submissions | avg. log MAE: -3.453 |
| nmr-j-coupling-on-qm9 | Graph Transformer | avg. log MAE: -3.241 |