3 个月前

用于临床段落识别的新公共语料库:MedSecId

用于临床段落识别的新公共语料库:MedSecId

摘要

文档中各部分内容的划分与标注过程被称为章节识别(section identification)。这一过程有助于读者在查找信息以及理解特定主题的上下文时更加高效。本研究的目标是实现临床医学领域文档的章节分割。本工作的主要贡献是提出了MedSecId,这是一个公开可用的数据集,包含来自MIMIC-III数据库的2,002份完整标注的医学记录。此外,我们还提供了若干基线方法、源代码、一个预训练模型,以及基于主成分分析(principal component analysis)对不同章节间医学概念关联性的数据分析结果。

基准测试

基准方法指标
classification-on-medsecidBiLSTM-CRF
1 shot Micro-F1: 82.2
clinical-section-identification-on-medsecidMedSecId
1 shot Micro-F1: 95.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于临床段落识别的新公共语料库:MedSecId | 论文 | HyperAI超神经