
摘要
预训练语言模型已成为自然语言处理领域的重要基础架构。近年来,领域内预训练方法在各类特定领域的下游任务中展现出显著优势。在生物医学领域,自然语言生成(Natural Language Generation, NLG)任务具有至关重要的意义,但相关研究仍相对不足。在通用领域,通过约束性语言生成或语言提示(language prompting)将自然语言理解(Natural Language Understanding, NLU)任务转化为NLG任务,已取得令人满意的性能表现。然而,当前生物医学领域仍缺乏专门的生成式语言模型,且下游生成任务的评估基准体系尚不系统,严重制约了该研究方向的发展。在本工作中,我们提出了面向生物医学领域的生成式语言模型——BioBART,该模型基于BART架构进行领域适配。我们整合了多种生物医学语言生成任务,包括对话生成、摘要生成、实体链接以及命名实体识别。实验结果表明,基于PubMed摘要进行预训练的BioBART在多项任务上显著优于原始BART模型,并在多个任务上建立了强有力的基线性能。此外,我们对BioBART的预训练任务进行了消融研究,发现句子重排(sentence permutation)任务对下游任务表现产生了负面影响。
代码仓库
GanjinZero/BioBART
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| entity-linking-on-medmentions | BioBART | Accuracy: 71.78 |
| nested-named-entity-recognition-on-genia | BioBART | F1: 79.93 |