3 个月前

大规模精准的临床与生物医学命名实体识别

大规模精准的临床与生物医学命名实体识别

摘要

我们提出了一种高效、适用于生产环境的临床与生物医学命名实体识别(Named Entity Recognition, NER)算法,该算法基于在 Apache Spark 平台之上构建的改进型 BiLSTM-CNN-Char 深度学习架构。本研究实现的 NER 模型在 8 个知名生物医学 NER 基准测试中的 7 个以及 3 个临床概念抽取挑战任务中达到了新的最先进(state-of-the-art)准确率,具体包括:2010 年 i2b2/VA 临床概念抽取、2014 年 n2c2 去标识化任务,以及 2018 年 n2c2 药物抽取任务。此外,使用该实现训练的临床 NER 模型在准确率上显著优于主流商业实体抽取解决方案——AWS Medical Comprehend 和 Google Cloud Healthcare API,分别高出 8.9% 和 6.7%,且无需依赖资源密集型的语言模型。

基准测试

基准方法指标
named-entity-recognition-ner-on-bc5cdrBertForTokenClassification (Spark NLP)
F1: 90.89
named-entity-recognition-on-anatemBertForTokenClassification (Spark NLP)
F1: 91.65
named-entity-recognition-on-bc4chemdBertForTokenClassification (Spark NLP)
F1: 94.39
named-entity-recognition-on-bionlp13-cgBertForTokenClassification (Spark NLP)
F1: 87.83
named-entity-recognition-on-species800BertForTokenClassification (Spark NLP)
F1: 82.59

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模精准的临床与生物医学命名实体识别 | 论文 | HyperAI超神经