4 个月前

双视角分子预训练

双视角分子预训练

摘要

受其在自然语言处理和计算机视觉领域取得的成功启发,预训练在化学信息学和生物信息学中,特别是在基于分子的任务中引起了广泛关注。分子可以通过图(原子通过键连接)或SMILES序列(应用特定规则对分子图进行深度优先搜索得到的序列)来表示。现有的分子预训练工作仅使用图表示或SMILES表示。在本研究中,我们提出利用这两种表示方法,并设计了一种新的预训练算法——双视图分子预训练(简称DMP),该算法能够有效结合两种分子表示方法的优势。DMP模型由两个分支组成:一个以分子的SMILES序列为输入的Transformer分支,以及一个以分子图为输入的图神经网络(GNN)分支。DMP的训练包含三个任务:(1) 通过Transformer分支预测SMILES序列中的掩码标记;(2) 通过GNN分支预测分子图中的掩码原子;(3) 最大化由Transformer和GNN分支分别输出的两个高层次表示之间的一致性。预训练完成后,我们可以根据经验结果推荐使用Transformer分支、GNN分支或两者用于下游任务。DMP在九个分子性质预测任务上进行了测试,并在其中七个任务上取得了最先进的性能。此外,我们在三个逆合成任务上测试了DMP,并同样取得了最先进的结果。

代码仓库

microsoft/DVMP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
molecular-property-prediction-on-hiv-datasetDVMP
AUC: 0.810

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双视角分子预训练 | 论文 | HyperAI超神经