
摘要
深度生成模型在医学图像领域作为一种解决数据稀缺问题的有前景方法已经崭露头角。然而,它们在处理如呼吸音等序列数据方面的应用尚不多见。在这项工作中,我们提出了一种使用音频扩散模型作为条件神经声码器来增强不平衡呼吸音数据的直接方法。我们还展示了一种简单而有效的对抗微调方法,通过该方法可以对齐合成呼吸音样本和真实呼吸音样本之间的特征,从而提高呼吸音分类性能。我们在ICBHI数据集上的实验结果表明,所提出的对抗微调方法是有效的,而仅使用传统增强方法则会导致性能下降。此外,我们的方法在ICBHI评分上比基线提高了2.24%,并将少数类别的准确性最高提升了26.58%。为了补充材料,我们提供了代码,地址为:https://github.com/kaen2891/adversarial_fine-tuning_using_generated_respiratory_sound。
代码仓库
kaen2891/adversarial_fine-tuning_using_generated_respiratory_sound
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-icbhi-respiratory | AFT on Mixed-500 | ICBHI Score: 61.79 Sensitivity: 42.86 Specificity: 80.72 |