摘要
生物医学命名实体识别(BioNER)是理解生物医学文本的重要任务,但由于缺乏大规模标注训练数据和领域专业知识,该任务往往具有挑战性。为应对这一挑战,除了使用强大的编码器(如biLSTM和BioBERT)外,一种可行的方法是利用易于获取的外部知识。先前的研究表明,自动处理的句法信息可作为提升模型性能的有用资源,但现有方法通常仅通过简单拼接句法信息的嵌入向量与输入词嵌入来实现,这种方式缺乏灵活性,且若句法信息存在误差,反而可能损害模型性能。为此,本文提出BIOKMNER模型,该模型基于键值记忆网络(Key-Value Memory Network, KVMN),用于在生物医学文本中有效融合自动处理的句法信息。我们在六个英文生物医学数据集上对BIOKMNER进行了评估,结果表明,采用KVMN的本方法在所有数据集上均优于此前研究中的强基线模型——BioBERT。具体而言,我们最佳模型在BC2GM数据集上的F1得分为85.29%,在JNLPBA上为77.83%,在BC5CDR-chemical上为94.22%,在NCBI-disease上为90.08%,在LINNAEUS上为89.24%,在Species-800上为76.33%。其中,有四个数据集(即BC2GM、BC5CDR-chemical、NCBI-disease和Species-800)达到了当前最优性能。六组英文基准数据集上的实验结果表明,自动处理的句法信息确实可作为BioNER任务中的有效资源,而本文提出的基于KVMN的方法能够更合理、有效地利用此类信息,从而显著提升模型性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-jnlpba | BioKMNER + BioBERT | F1: 77.83 |
| named-entity-recognition-ner-on-ncbi-disease | BioKMNER + BioBERT | F1: 88.77 |
| named-entity-recognition-on-bc2gm | BioKMNER + BioBERT | F1: 85.29 |
| named-entity-recognition-on-bc5cdr-chemical | BioKMNER + BioBERT | F1: 94.22 |
| named-entity-recognition-on-species-800 | BioKMNER + BioBERT | F1: 76.33 |