
摘要
本研究旨在通过引入一个新的大型语言模型(LLM)驱动的数据集——野生家庭环境声音事件检测数据集(WildDESED),来推进声音事件检测(SED)的研究。该数据集是在原始DESED数据集的基础上扩展而成,旨在反映家庭环境中多样的声学变化和复杂的噪声。我们利用大型语言模型生成了基于DESED数据集中目标声音类别的八种不同的家庭场景。随后,我们从AudioSet中精心挑选了一组噪声并将其混合到这些场景中,确保这些噪声与目标声音没有重叠。为了研究WildDESED数据集的挑战性,我们采用了广泛流行的卷积神经递归网络(CNN-RNN)。接着,我们通过逐步增加噪声复杂度的方法应用了课程学习,以增强模型在不同噪声水平下的泛化能力。实验结果表明,这种方法在嘈杂环境下取得了改进,验证了其在WildDESED数据集上的有效性,并促进了对噪声鲁棒性的SED技术的发展。
代码仓库
swagshaw/wilddesed
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sound-event-detection-on-wilddesed | CRNN (WildDESED) | PSDS1 (-5dB): 0.048 PSDS1 (0dB): 0.087 PSDS1 (10dB): 0.175 PSDS1 (5dB): 0.135 PSDS1 (Clean): 0.200 |
| sound-event-detection-on-wilddesed | CRNN | PSDS1 (-5dB): 0.017 PSDS1 (0dB): 0.064 PSDS1 (10dB): 0.222 PSDS1 (5dB): 0.148 PSDS1 (Clean): 0.348 |
| sound-event-detection-on-wilddesed | CRNN (WildDESED + Curriculrm learning) | PSDS1 (-5dB): 0.049 PSDS1 (0dB): 0.114 PSDS1 (10dB): 0.212 PSDS1 (5dB): 0.175 PSDS1 (Clean): 0.265 |