
摘要
频率动态卷积(FDY conv)在声音事件检测(SED)领域中具有里程碑意义,但由于多个基核的存在,导致模型规模显著增加。在本研究中,我们提出了一种部分频率动态卷积(PFD conv),该方法将传统二维卷积和FDY conv的输出分别作为静态分支和动态分支进行连接。当动态分支输出的比例为八分之一时,PFD-CRNN相比FDY-CRNN减少了51.9%的参数,同时保持了性能。此外,我们还提出了多膨胀频率动态卷积(MDFD conv),该方法在一个单一的卷积层内集成了多个不同膨胀率集合的膨胀频率动态卷积(DFD conv)分支和一个静态分支。最佳的MDFD-CRNN配置包括五个非膨胀的FDY Conv分支、三个不同膨胀率的DFD Conv分支以及一个静态分支,在没有类别中值滤波的情况下,其多声源检测得分(PSDS)比FDY conv提高了3.17%。通过对最佳MDFD-CRNN应用声音事件边界框作为后处理步骤,实现了真正的PSDS1得分为0.485,这是在DESED数据集中不使用外部数据集或预训练模型的最佳得分。通过广泛的消融实验结果,我们发现不仅多个动态分支对SED有帮助,特定比例的静态分支也对其有益。此外,为了获得最优的SED性能,除了膨胀动态分支外还需要非膨胀动态分支。这些消融实验的结果和讨论进一步增强了对FDY conv变体的理解和实用性。
代码仓库
frednam93/MDFD-SED
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sound-event-detection-on-desed | ABC + MDFD-CRNN | PSDS1: 0.577 |
| sound-event-detection-on-desed | MDFD-CRNN | PSDS1: 0.485 |