
摘要
声事件检测(Sound Event Detection, SED)系统的性能受到大规模强标签数据集难以生成的严重制约。在本研究中,我们采用两种主要方法来缓解强标签数据不足的问题。首先,我们在输入特征上应用了高强度的数据增强技术,所采用的方法不仅包括语音/音频领域常用的常规数据增强手段,还提出了我们新提出的名为FilterAugment的方法。其次,我们提出了两种利用弱预测结果以提升弱监督SED性能的新方法。实验结果表明,在DESED真实验证数据集上,我们取得了最佳的PSDS1得分0.4336和最佳的PSDS2得分0.8161。本工作已提交至DCASE 2021 Task4,并在该任务中位列第三名。代码已公开:https://github.com/frednam93/FilterAugSED。
代码仓库
frednam93/FilterAugSED
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sound-event-detection-on-desed | FiltAug SED | PSDS1: 0.4336 PSDS2: 0.8161 event-based F1 score: 49.6 |