
摘要
在科学报告和学术出版物中,同一概念的不同表述形式常常出现。实体归一化(或实体链接)的任务便是将这些不同的表述形式映射到其对应的标准化概念。本文提出一种两阶段集成卷积神经网络(CNN)方法,用于将自由文本中的微生物学相关实体归一化至标准词典中的概念。该方法在仅具备少量微生物学相关生物医学语料进行训练的情况下,仍具备较强的实体链接能力,并在BioNLP-OST19共享任务“细菌生境”(Bacteria Biotope)的在线测试中取得了合理的性能表现。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-concept-normalization-on-bb-norm-1 | PADIA | accuracy: 0.488 wang: 0.684 |
| medical-concept-normalization-on-bb-norm-2 | PADIA | accuracy: 0.618 wang: 0.758 |