6 个月前

统一多模态

自然语言处理

Zhiqiang Zhong Simon Sataa-Yu Larsen Haoyu Guo Tao Tang Kuangyu Zhou Davide Mottin

摘要

近年来，人工智能在生物研究领域的进展主要聚焦于将分子数据与自然语言相结合，以加速药物发现进程。然而，高质量标注数据的稀缺严重制约了该方向的发展。本文提出LA $^3$ ——一种基于语言的自动标注增强框架，利用大规模语言模型对现有数据集进行扩充，从而提升人工智能模型的训练效果。我们通过系统重写一个已有数据集中的分子注释，构建了一个增强型数据集LaChEBI-20。该数据集在保留分子关键信息的基础上，引入了更加多样化的句式结构与词汇表达。基于LaChEBI-20，我们采用基准架构训练了LaMolT5模型，使其学习分子表征与增强后注释之间的映射关系。在基于文本的从头分子生成（de novo molecule generation）与分子图像描述（molecule captioning）任务上的实验结果表明，LaMolT5显著优于当前最先进的模型，性能提升最高达基准架构的301%。此外，我们在图像、文本和图结构等多种任务中验证了LA $^3$ 的有效性，充分证明了该框架的通用性与实际应用价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

自然语言处理

Zhiqiang Zhong Simon Sataa-Yu Larsen Haoyu Guo Tao Tang Kuangyu Zhou Davide Mottin

摘要

近年来，人工智能在生物研究领域的进展主要聚焦于将分子数据与自然语言相结合，以加速药物发现进程。然而，高质量标注数据的稀缺严重制约了该方向的发展。本文提出LA $^3$ ——一种基于语言的自动标注增强框架，利用大规模语言模型对现有数据集进行扩充，从而提升人工智能模型的训练效果。我们通过系统重写一个已有数据集中的分子注释，构建了一个增强型数据集LaChEBI-20。该数据集在保留分子关键信息的基础上，引入了更加多样化的句式结构与词汇表达。基于LaChEBI-20，我们采用基准架构训练了LaMolT5模型，使其学习分子表征与增强后注释之间的映射关系。在基于文本的从头分子生成（de novo molecule generation）与分子图像描述（molecule captioning）任务上的实验结果表明，LaMolT5显著优于当前最先进的模型，性能提升最高达基准架构的301%。此外，我们在图像、文本和图结构等多种任务中验证了LA $^3$ 的有效性，充分证明了该框架的通用性与实际应用价值。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

自动注释增强显著提升了分子与自然语言之间的翻译性能 | 论文 | HyperAI超神经