
摘要
当前许多自然语言处理(NLP)方法难以在临床环境中应用的主要挑战之一,是公开可用医疗数据集的缺乏。在本研究中,我们提出了MeDAL,这是一个专为缩写消歧任务而精心构建的大规模医学文本数据集,旨在支持医学领域自然语言理解的预训练。我们在该数据集上对多种主流架构的模型进行了预训练,并通过实证研究证明,此类预训练能够显著提升在下游医学任务上微调时的性能表现及收敛速度。
代码仓库
mcGill-NLP/medal
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| mortality-prediction-on-mimic-iii | LSTM+SA (pretrained) | Accuracy: 0.8298 |
| mortality-prediction-on-mimic-iii | ELECTRA (pretrained) | Accuracy: 0.8443 |
| mortality-prediction-on-mimic-iii | ELECTRA (from scratch) | Accuracy: 0.8325 |
| mortality-prediction-on-mimic-iii | LSTM (pretrained) | Accuracy: 0.828 |
| mortality-prediction-on-mimic-iii | LSTM+SA (from scratch) | Accuracy: 0.7996 |