6 个月前

摘要

日益增长的生物医学文献与数字化临床记录，对文本挖掘技术提出了更高要求：不仅需要识别实体，还需在非结构化数据中实现语义层面的实体关联。本文提出了一种融合命名实体识别（Named Entity Recognition, NER）与关系抽取（Relation Extraction, RE）的文本挖掘框架，并在前期研究基础上实现了三大创新。首先，我们提出了两种新型RE模型架构：一种基于BioBERT的高精度优化模型，另一种则采用人工设计特征的全连接神经网络（Fully Connected Neural Network, FCNN）实现速度优化。其次，我们在多个公开基准数据集上对两种模型进行了评估，取得了多项新的最先进（SOTA）性能表现：在2012年i2b2临床时间关系挑战赛中，F1得分为73.6，较前序SOTA提升1.2%；在2010年i2b2临床关系挑战赛中，F1得分为69.1，提升1.2%；在2019年表型-基因关系数据集上，F1得分为87.9，提升8.5%；在2012年不良药物事件-药物反应数据集上，F1得分为90.0，提升6.3%；在2018年n2c2剂量学关系数据集上，F1得分为96.7，提升0.6%。第三，我们展示了该框架的两项实际应用：构建生物医学知识图谱，以及提升实体映射至临床编码的准确性。系统基于Spark NLP库构建，该库提供了一个生产级、原生可扩展、硬件优化、可训练且可调优的自然语言处理框架。

源 PDF