4 个月前

利用Spark NLP改进COVID-19研究中的临床文档理解

利用Spark NLP改进COVID-19研究中的临床文档理解

摘要

在新冠疫情全球大流行之后,研究该病毒的科学论文数量大幅增加,从而引发了对自动化文献综述的兴趣。本文介绍了一种临床文本挖掘系统,该系统在三个方面改进了以往的努力。首先,它能够识别超过100种不同的实体类型,包括健康的社会决定因素、解剖学、风险因素和不良事件等,以及其他常用的临床和生物医学实体。其次,文本处理流程中包含了断言状态检测功能,以区分存在、不存在、条件性或涉及患者以外其他人的临床事实。第三,所使用的深度学习模型比以前的更为准确,利用了最先进的预训练命名实体识别模型集成管道,并在断言状态检测方面超越了此前的最佳基准。我们通过从新冠开放研究数据集(CORD-19)中提取趋势和见解来说明系统的应用,例如最常见的疾病和症状、最普遍的生命体征和心电图结果等。该系统基于Spark NLP库构建,该库原生支持扩展至分布式集群,充分利用GPU资源,并提供可配置和可复用的NLP管道、医疗保健专用嵌入向量以及无需代码更改即可训练模型以支持新实体类型或人类语言的能力。

基准测试

基准方法指标
clinical-assertion-status-detection-on-2010BiLSTM (SparkNLP)
Micro F1: 0.939

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用Spark NLP改进COVID-19研究中的临床文档理解 | 论文 | HyperAI超神经