3 个月前

BioMegatron:更大规模的生物医学领域语言模型

BioMegatron:更大规模的生物医学领域语言模型

摘要

近年来,生物医学领域特定的语言模型大量涌现,研究表明,基于生物医学文本预训练的语言模型在生物医学领域的基准测试中,性能显著优于在通用领域语料(如维基百科和书籍)上训练的模型。然而,大多数现有研究并未深入探讨影响各类生物医学语言应用性能的关键因素。此外,关于模型规模对领域特定模型影响的研究仍较为匮乏。本文通过实证方法,系统评估了多个可能影响领域语言应用性能的因素,包括子词词汇表(sub-word vocabulary set)、模型规模、预训练语料以及领域迁移能力。实验结果表明,我们基于更大规模领域语料训练的大型生物医学语言模型——BioMegatron,在多个基准测试中均取得一致性的性能提升,进一步深化了对领域语言模型应用机制的理解。在标准生物医学自然语言处理任务(包括命名实体识别、关系抽取和问答系统)上,我们的方法显著超越了此前的最先进水平(SOTA)。相关模型检查点及代码已公开,可访问 [https://ngc.nvidia.com] 和 [https://github.com/NVIDIA/NeMo] 获取。

代码仓库

NVIDIA/NeMo
官方
pytorch

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioMegatron:更大规模的生物医学领域语言模型 | 论文 | HyperAI超神经