
摘要
睡眠阶段分类是诊断睡眠障碍的重要组成部分,依赖于经过培训的睡眠技师对多导睡眠图记录进行视觉检查。为了减轻这一资源密集型任务,已经设计了自动化方法。然而,这些方法通常仅与单一人类评分者的注释进行比较,尽管评分者之间的协议率仅为约85%。本研究介绍了两个公开可用的数据集,DOD-H包括25名健康志愿者,DOD-O包括55名患有阻塞性睡眠呼吸暂停(OSA)的患者。这两个数据集均由来自不同睡眠中心的5名睡眠技师进行了评分。我们开发了一个框架,用于将自动化方法与多名人类评分者的共识进行比较。利用该框架,我们对文献中的主要方法进行了基准测试和比较。此外,我们还开发并测试了一种新的深度学习方法SimpleSleepNet,该方法受到当前最先进方法的启发。我们证明了许多方法在这两个数据集中都能达到人类水平的表现。在DOD-H数据集中,SimpleSleepNet的F1分数为89.9%,而人类评分者的平均F1分数为86.8%;在DOD-O数据集中,SimpleSleepNet的F1分数为88.3%,而人类评分者的平均F1分数为84.8%。我们的研究表明,使用最先进的自动化睡眠分期方法在健康志愿者和患有OSA的患者中均优于人类评分者的表现。可以考虑在临床环境中使用自动化方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sleep-stage-detection-on-dodh | DeepSleepNet | Accuracy: 89.6 Kappa: 84.3 |
| sleep-stage-detection-on-dodh | SimpleSleepNet | Accuracy: 89.9 Kappa: 84.6 |
| sleep-stage-detection-on-dodo | SimpleSleepNet | Accuracy: 88.7 Kappa: 82.3 |
| sleep-stage-detection-on-dodo | SeqSleepNet | Accuracy: 85.5 Kappa: 77.2 |
| sleep-stage-detection-on-dodo | DeepSleepNet | Accuracy: 87.5 Kappa: 80.4 |
| sleep-stage-detection-on-mass-ss3 | Deep Sleep Net | Accuracy: 89.1% |
| sleep-stage-detection-on-mass-ss3 | Simple Sleep Net | Accuracy: 88.8% |