4 个月前

基于扩散语言模型的文本引导分子生成

基于扩散语言模型的文本引导分子生成

摘要

文本引导的分子生成是一项根据特定文本描述生成分子的任务。近期,大多数现有的基于SMILES(简化分子线性输入系统)的分子生成方法依赖于自回归架构。在本研究中,我们提出了一种新的方法——扩散语言模型引导的文本生成分子(TGM-DLM),该方法利用扩散模型来克服自回归方法的局限性。TGM-DLM通过两阶段的扩散生成过程,集体且迭代地更新SMILES字符串中的标记嵌入。第一阶段从随机噪声中优化嵌入,由文本描述引导;第二阶段则修正无效的SMILES字符串,形成有效的分子表示。我们证明了TGM-DLM无需额外的数据资源即可优于MolT5-Base(一种自回归模型)。我们的研究结果突显了TGM-DLM在生成具有特定属性的连贯且精确的分子方面的显著有效性,为药物发现及相关科学领域开辟了新的途径。代码将在以下地址发布:https://github.com/Deno-V/tgm-dlm。

代码仓库

deno-v/tgm-dlm
官方
jax
GitHub 中提及

基准测试

基准方法指标
text-based-de-novo-molecule-generation-onTGM-DLM
BLEU: 82.6
Exact Match: 24.2
Frechet ChemNet Distance (FCD): 0.77
Levenshtein: 17.003
MACCS FTS: 85.4
Morgan FTS: 68.8
Parameter Count: 180000000
RDK FTS: 73.9
Text2Mol: 58.1
Validity: 87.1
text-based-de-novo-molecule-generation-onTGM-DLM w/o corr
BLEU: 82.8
Exact Match: 24.2
Frechet ChemNet Distance (FCD): 0.89
Levenshtein: 16.897
MACCS FTS: 87.4
Morgan FTS: 72.2
Parameter Count: 180000000
RDK FTS: 77.1
Text2Mol: 58.9
Validity: 78.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于扩散语言模型的文本引导分子生成 | 论文 | HyperAI超神经