3 个月前

基于本体与弱监督的临床笔记中的罕见病识别

基于本体与弱监督的临床笔记中的罕见病识别

摘要

由于罕见病病例数量稀少,且机器学习模型训练需要临床专家进行数据标注,因此利用自然语言处理(NLP)从临床病历文本中识别罕见病极具挑战性。为此,我们提出一种结合本体(ontology)与弱监督(weak supervision)的方法。该方法包含两个步骤:(i)Text-to-UMLS,即通过命名实体链接工具(如SemEHR)结合基于自定义规则和基于双向编码器表示的Transformer(BERT)上下文表征的弱监督策略,将文本中的医学术语指代链接至统一医学语言系统(UMLS)中的概念;(ii)UMLS-to-ORDO,即将UMLS中的概念匹配至Orphanet罕见病本体(ORDO)中的罕见病实体。以美国MIMIC-III重症监护病房出院摘要为案例研究,我们发现,在无需任何领域专家标注数据的前提下,通过弱监督可显著提升Text-to-UMLS环节的性能。分析结果表明,该整体处理流程能够有效识别出罕见病病例,而这些病例在医院入院记录中通常未被人工编码的ICD代码所捕获。

代码仓库

基准测试

基准方法指标
entity-linking-on-rare-diseases-mentions-inSemEHR+WS (rules+BlueBERT)
F1: 0.858
entity-linking-on-rare-diseases-mentions-in-1SemEHR+WS (rules+BlueBERT)
F1: 0.702

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于本体与弱监督的临床笔记中的罕见病识别 | 论文 | HyperAI超神经