6 个月前

自然语言处理

自然语言处理

Malaikannan Sankarasubbu Bhuvana Kundumani Kamal raj Kanakarajan

摘要

近年来，自然语言处理（NLP）领域预训练策略的进展显著提升了模型在各类文本挖掘任务中的性能。本文采用ELECTRA提出的“被替换标记检测”（Replaced Token Detection, RTD）预训练技术，基于生物医学文本与词汇表从零开始预训练一个生物医学领域语言模型。我们提出了BioELECTRA，这是一种专为生物医学领域设计的语言编码器模型，旨在将ELECTRA框架适配至生物医学应用场景。我们在BLURB与BLUE两个生物医学NLP基准测试集上对模型进行了评估。结果显示，BioELECTRA在BLURB基准测试的全部13个数据集上均超越先前模型，达到当前最优（State-of-the-Art, SOTA）水平；在BLUE基准测试的全部4个临床相关数据集上，同样在7项不同NLP任务中取得SOTA表现。此外，基于PubMed与PMC全文文章预训练的BioELECTRA，在临床数据集上也表现出色。具体而言，BioELECTRA在MedNLI数据集上取得86.34%的准确率，较此前最优模型提升1.39个百分点；在PubMedQA数据集上达到64%的准确率，较之前最佳结果提升2.98个百分点，均创下新的SOTA纪录。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Malaikannan Sankarasubbu Bhuvana Kundumani Kamal raj Kanakarajan

摘要

近年来，自然语言处理（NLP）领域预训练策略的进展显著提升了模型在各类文本挖掘任务中的性能。本文采用ELECTRA提出的“被替换标记检测”（Replaced Token Detection, RTD）预训练技术，基于生物医学文本与词汇表从零开始预训练一个生物医学领域语言模型。我们提出了BioELECTRA，这是一种专为生物医学领域设计的语言编码器模型，旨在将ELECTRA框架适配至生物医学应用场景。我们在BLURB与BLUE两个生物医学NLP基准测试集上对模型进行了评估。结果显示，BioELECTRA在BLURB基准测试的全部13个数据集上均超越先前模型，达到当前最优（State-of-the-Art, SOTA）水平；在BLUE基准测试的全部4个临床相关数据集上，同样在7项不同NLP任务中取得SOTA表现。此外，基于PubMed与PMC全文文章预训练的BioELECTRA，在临床数据集上也表现出色。具体而言，BioELECTRA在MedNLI数据集上取得86.34%的准确率，较此前最优模型提升1.39个百分点；在PubMedQA数据集上达到64%的准确率，较之前最佳结果提升2.98个百分点，均创下新的SOTA纪录。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供