3 个月前

基于关系抽取的深度临床文档理解

基于关系抽取的深度临床文档理解

摘要

日益增长的生物医学文献与数字化临床记录,对文本挖掘技术提出了更高要求:不仅需要识别实体,还需在非结构化数据中实现语义层面的实体关联。本文提出了一种融合命名实体识别(Named Entity Recognition, NER)与关系抽取(Relation Extraction, RE)的文本挖掘框架,并在前期研究基础上实现了三大创新。首先,我们提出了两种新型RE模型架构:一种基于BioBERT的高精度优化模型,另一种则采用人工设计特征的全连接神经网络(Fully Connected Neural Network, FCNN)实现速度优化。其次,我们在多个公开基准数据集上对两种模型进行了评估,取得了多项新的最先进(SOTA)性能表现:在2012年i2b2临床时间关系挑战赛中,F1得分为73.6,较前序SOTA提升1.2%;在2010年i2b2临床关系挑战赛中,F1得分为69.1,提升1.2%;在2019年表型-基因关系数据集上,F1得分为87.9,提升8.5%;在2012年不良药物事件-药物反应数据集上,F1得分为90.0,提升6.3%;在2018年n2c2剂量学关系数据集上,F1得分为96.7,提升0.6%。第三,我们展示了该框架的两项实际应用:构建生物医学知识图谱,以及提升实体映射至临床编码的准确性。系统基于Spark NLP库构建,该库提供了一个生产级、原生可扩展、硬件优化、可训练且可调优的自然语言处理框架。

基准测试

基准方法指标
relation-extraction-on-2010-i2b2-va-1Spark NLP
Macro F1: 69.1
relation-extraction-on-2012-i2b2-temporalSpark NLP
Macro F1: 73.6
relation-extraction-on-2018-n2c2-posologySpark NLP
Macro F1: 96.7
relation-extraction-on-pgrSpark NLP
Macro F1: 87.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于关系抽取的深度临床文档理解 | 论文 | HyperAI超神经