3 个月前

BioELECTRA:基于判别器的预训练生物医学文本编码器

BioELECTRA:基于判别器的预训练生物医学文本编码器

摘要

近年来,自然语言处理(NLP)领域预训练策略的进展显著提升了模型在各类文本挖掘任务中的性能。本文采用ELECTRA提出的“被替换标记检测”(Replaced Token Detection, RTD)预训练技术,基于生物医学文本与词汇表从零开始预训练一个生物医学领域语言模型。我们提出了BioELECTRA,这是一种专为生物医学领域设计的语言编码器模型,旨在将ELECTRA框架适配至生物医学应用场景。我们在BLURB与BLUE两个生物医学NLP基准测试集上对模型进行了评估。结果显示,BioELECTRA在BLURB基准测试的全部13个数据集上均超越先前模型,达到当前最优(State-of-the-Art, SOTA)水平;在BLUE基准测试的全部4个临床相关数据集上,同样在7项不同NLP任务中取得SOTA表现。此外,基于PubMed与PMC全文文章预训练的BioELECTRA,在临床数据集上也表现出色。具体而言,BioELECTRA在MedNLI数据集上取得86.34%的准确率,较此前最优模型提升1.39个百分点;在PubMedQA数据集上达到64%的准确率,较之前最佳结果提升2.98个百分点,均创下新的SOTA纪录。

基准测试

基准方法指标
medical-named-entity-recognition-on-shareBioELECTRA
F1: 0.8371
natural-language-inference-on-mednliBioELECTRA-Base
Accuracy: 86.34
Params (M): 110
question-answering-on-pubmedqaBioELECTRA uncased
Accuracy: 64.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BioELECTRA:基于判别器的预训练生物医学文本编码器 | 论文 | HyperAI超神经