3 个月前

Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成

Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成

摘要

本文提出了一种名为Mol2Lang-VLM的增强方法,旨在通过引入多模态特征,对生成式预训练语言模型进行优化,以实现更精准的分子图像描述生成。该方法基于Transformer架构,在编码器与解码器模块中分别引入了第三子层。具体而言,编码器中的子层用于融合SELFIES字符串与分子图像的特征,而解码器中的子层则用于融合SMILES字符串及其对应描述文本的特征。此外,本文采用交叉多头注意力机制替代传统的多头注意力机制,使解码器能够有效关注编码器的输出,从而整合编码后的上下文信息,提升描述生成的准确性和质量。在CheBI-20与L+M-24两个基准数据集上的性能评估结果表明,Mol2Lang-VLM在描述生成的准确率与质量方面均优于现有方法。相关代码与预处理数据已开源,获取地址为:https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/。

基准测试

基准方法指标
molecule-captioning-on-chebi-20Mol2Lang-VLM
BLEU-2: 61.2
BLEU-4: 52.7
METEOR: 63.3
ROUGE-1: 67.4
ROUGE-2: 53.2
ROUGE-L: 61.4
Text2Mol: 59.8
molecule-captioning-on-l-m-24Mol2Lang-VLM
BLEU-2: 77.7
BLEU-4: 56.3
METEOR: 74.1
ROUGE-1: 78.6
ROUGE-2: 59.1
ROUGE-L: 56.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mol2Lang-VLM:视觉与文本引导的生成式预训练语言模型,通过多模态融合推进分子图像描述生成 | 论文 | HyperAI超神经