6 个月前

Hoo-Chang Shin Yang Zhang Evelina Bakhturina Raul Puri Mostofa Patwary Mohammad Shoeybi Raghav Mani

摘要

近年来，生物医学领域特定的语言模型大量涌现，研究表明，基于生物医学文本预训练的语言模型在生物医学领域的基准测试中，性能显著优于在通用领域语料（如维基百科和书籍）上训练的模型。然而，大多数现有研究并未深入探讨影响各类生物医学语言应用性能的关键因素。此外，关于模型规模对领域特定模型影响的研究仍较为匮乏。本文通过实证方法，系统评估了多个可能影响领域语言应用性能的因素，包括子词词汇表（sub-word vocabulary set）、模型规模、预训练语料以及领域迁移能力。实验结果表明，我们基于更大规模领域语料训练的大型生物医学语言模型——BioMegatron，在多个基准测试中均取得一致性的性能提升，进一步深化了对领域语言模型应用机制的理解。在标准生物医学自然语言处理任务（包括命名实体识别、关系抽取和问答系统）上，我们的方法显著超越了此前的最先进水平（SOTA）。相关模型检查点及代码已公开，可访问 [https://ngc.nvidia.com] 和 [https://github.com/NVIDIA/NeMo] 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Hoo-Chang Shin Yang Zhang Evelina Bakhturina Raul Puri Mostofa Patwary Mohammad Shoeybi Raghav Mani

摘要

近年来，生物医学领域特定的语言模型大量涌现，研究表明，基于生物医学文本预训练的语言模型在生物医学领域的基准测试中，性能显著优于在通用领域语料（如维基百科和书籍）上训练的模型。然而，大多数现有研究并未深入探讨影响各类生物医学语言应用性能的关键因素。此外，关于模型规模对领域特定模型影响的研究仍较为匮乏。本文通过实证方法，系统评估了多个可能影响领域语言应用性能的因素，包括子词词汇表（sub-word vocabulary set）、模型规模、预训练语料以及领域迁移能力。实验结果表明，我们基于更大规模领域语料训练的大型生物医学语言模型——BioMegatron，在多个基准测试中均取得一致性的性能提升，进一步深化了对领域语言模型应用机制的理解。在标准生物医学自然语言处理任务（包括命名实体识别、关系抽取和问答系统）上，我们的方法显著超越了此前的最先进水平（SOTA）。相关模型检查点及代码已公开，可访问 [https://ngc.nvidia.com] 和 [https://github.com/NVIDIA/NeMo] 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供