{Cláudia Maria Cabral Moro BarraDouglas TeodoroEmerson Cabrera ParaisoLucas Ferro Antunes de OliveiraYohan Bonescki GumielJenny CoparaLucas Emanuel Silva e OliveiraJulien KnafouJoão Vitor Andrioli de SouzaElisa Terumi Rubel Schneider}

摘要
随着电子健康记录数据的不断增长,临床自然语言处理(NLP)任务在从非结构化临床文本中挖掘有价值信息方面日益重要。尽管近年来基于上下文感知语言模型在英文语料上的下游NLP任务(如命名实体识别,NER)性能已显著提升,但在低资源语言的临床文本研究仍相对不足。本文旨在评估一种针对葡萄牙语的深度上下文嵌入模型——BioBERTpt,以支持临床与生物医学领域的命名实体识别任务。我们通过迁移多语言BERT模型中已学习到的知识,将其应用于巴西葡萄牙语的临床叙事文本和生物医学科学论文语料库。为评估BioBERTpt的性能,我们在两个标注的临床叙事语料库上开展了NER实验,并与现有的BERT模型进行对比。实验结果表明,本研究所提出的领域内(in-domain)模型在F1分数上相比基线模型提升了2.72%,在13个评估实体中有11个实现了更高的性能。研究结果表明,通过引入领域文献对上下文嵌入模型进行增强,可在特定NLP任务中显著提升模型表现。此外,迁移学习过程有效降低了对标注数据的需求,并减少了重新训练完整模型的必要性,为低资源语言临床NLP的发展提供了可行路径。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-semclinbr | pucpr/biobertpt-clin | Micro F1: 0.602 |
| named-entity-recognition-ner-on-semclinbr | pucpr/biobertpt-all | Micro F1: 0.604 |
| named-entity-recognition-ner-on-semclinbr | pucpr/biobertpt-bio | Micro F1: 0.602 |