4 个月前

知识注入提示的多标签少样本ICD编码微调

知识注入提示的多标签少样本ICD编码微调

摘要

自动国际疾病分类(ICD)编码旨在为平均长度超过3000个标记的医疗记录分配多个ICD代码。这一任务具有挑战性,原因在于多标签分配的高维空间(数万个ICD代码)以及长尾问题:只有少数代码(常见疾病)被频繁分配,而大多数代码(罕见疾病)则很少被分配。本研究通过引入基于提示的微调技术并结合标签语义来应对长尾问题,该技术在少量样本设置下已被证明有效。为了进一步提升医学领域的性能,我们提出了一种知识增强型Longformer模型,通过注入三个特定领域的知识——层次结构、同义词和缩写,并利用对比学习进行额外预训练。在基准数据集MIMIC-III-full上的实验结果表明,我们提出的方法在宏F1指标上比现有最佳方法提高了14.5%(从10.3提高到11.8,P<0.001)。为进一步测试我们的模型在少量样本设置下的表现,我们创建了一个新的罕见疾病编码数据集MIMIC-III-rare50,在该数据集上,我们的模型将宏F1指标从17.1提高到30.4,微F1指标从17.2提高到32.6,相比现有方法有显著提升。

代码仓库

whaleloops/KEPT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
medical-code-prediction-on-mimic-iiiMSMN+KEPTLongformer
Macro-F1: 11.8
Micro-F1: 59.9
Precision@15: 61.5
Precision@8: 77.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
知识注入提示的多标签少样本ICD编码微调 | 论文 | HyperAI超神经