
摘要
为了减少对熟练临床医生在心音解读方面的需求,近期关于自动化心脏听诊的研究探索了深度学习方法。然而,尽管深度学习需要大量数据,但现有的心音数据集规模有限,且没有可用的预训练模型。相比之下,许多针对通用音频任务的预训练模型作为通用音频表示已经存在。本研究探讨了在大规模数据集上预训练的通用音频表示在心杂音检测中的迁移学习潜力。实验结果表明,在CirCor DigiScope心音数据集上,最近提出的自监督学习方法Masked Modeling Duo(M2D)的表现优于以往的方法,其加权准确率为0.832,未加权平均召回率为0.713。进一步的实验还证实了通过与其他模型集成可以提高M2D的性能。这些结果展示了通用音频表示在处理心音方面的有效性,并为未来应用开辟了道路。我们的代码已在线提供,可以在配备24 GB消费级GPU的设备上运行,地址为:https://github.com/nttcslab/m2d/tree/master/app/circor
代码仓库
nttcslab/m2d
官方
pytorch
GitHub 中提及
nttcslab/eval-audio-repr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classify-murmurs-on-circor-digiscope | M2D | Unweighted average recall: 0.713 Weighted Accuracy: 0.832 |