
摘要
ICD编码是指将国际疾病分类诊断代码分配给由医疗专业人员(如临床医生)记录的临床/医疗笔记的过程。这一过程需要大量的人力资源,因此成本高昂且容易出错。为了解决这一问题,机器学习已被用于自动ICD编码。以往的最先进模型基于卷积神经网络,使用单个或多个固定窗口大小。然而,临床文本中与ICD代码相关的文本片段的长度和相互依赖关系差异显著,导致难以确定最佳窗口大小。在本文中,我们提出了一种新的标签注意力模型,用于自动ICD编码,该模型能够处理与ICD代码相关文本片段的各种长度及其相互依赖关系。此外,由于大多数ICD代码使用频率不高,导致数据极度不平衡的问题,我们还提出了一种分层联合学习机制,扩展了我们的标签注意力模型以应对这一问题,利用代码之间的层次关系。我们的标签注意力模型在三个基准MIMIC数据集上取得了最新的最先进结果,并且联合学习机制有助于提高不常用代码的性能。
代码仓库
joakimedin/medical-coding-reproducibility
pytorch
GitHub 中提及
aehrc/LAAT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-code-prediction-on-mimic-iii | LAAT | Macro-AUC: 91.9 Macro-F1: 9.9 Micro-AUC: 98.8 Micro-F1: 57.5 Precision@15: 59.1 Precision@5: 81.3 Precision@8: 73.8 |
| medical-code-prediction-on-mimic-iii | JointLAAT | Macro-AUC: 92.1 Macro-F1: 10.7 Micro-AUC: 98.8 Micro-F1: 57.5 Precision@15: 59.0 Precision@5: 80.6 Precision@8: 73.5 |