摘要
我们提出了一种高效、适用于生产环境的临床与生物医学命名实体识别(Named Entity Recognition, NER)算法,该算法基于在 Apache Spark 平台之上构建的改进型 BiLSTM-CNN-Char 深度学习架构。本研究实现的 NER 模型在 8 个知名生物医学 NER 基准测试中的 7 个以及 3 个临床概念抽取挑战任务中达到了新的最先进(state-of-the-art)准确率,具体包括:2010 年 i2b2/VA 临床概念抽取、2014 年 n2c2 去标识化任务,以及 2018 年 n2c2 药物抽取任务。此外,使用该实现训练的临床 NER 模型在准确率上显著优于主流商业实体抽取解决方案——AWS Medical Comprehend 和 Google Cloud Healthcare API,分别高出 8.9% 和 6.7%,且无需依赖资源密集型的语言模型。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-bc5cdr | BertForTokenClassification (Spark NLP) | F1: 90.89 |
| named-entity-recognition-on-anatem | BertForTokenClassification (Spark NLP) | F1: 91.65 |
| named-entity-recognition-on-bc4chemd | BertForTokenClassification (Spark NLP) | F1: 94.39 |
| named-entity-recognition-on-bionlp13-cg | BertForTokenClassification (Spark NLP) | F1: 87.83 |
| named-entity-recognition-on-species800 | BertForTokenClassification (Spark NLP) | F1: 82.59 |