4 个月前

利用多膨胀频率动态卷积推动声音事件检测的极限

利用多膨胀频率动态卷积推动声音事件检测的极限

摘要

频率动态卷积(FDY conv)在声音事件检测(SED)领域中具有里程碑意义,但由于多个基核的存在,导致模型规模显著增加。在本研究中,我们提出了一种部分频率动态卷积(PFD conv),该方法将传统二维卷积和FDY conv的输出分别作为静态分支和动态分支进行连接。当动态分支输出的比例为八分之一时,PFD-CRNN相比FDY-CRNN减少了51.9%的参数,同时保持了性能。此外,我们还提出了多膨胀频率动态卷积(MDFD conv),该方法在一个单一的卷积层内集成了多个不同膨胀率集合的膨胀频率动态卷积(DFD conv)分支和一个静态分支。最佳的MDFD-CRNN配置包括五个非膨胀的FDY Conv分支、三个不同膨胀率的DFD Conv分支以及一个静态分支,在没有类别中值滤波的情况下,其多声源检测得分(PSDS)比FDY conv提高了3.17%。通过对最佳MDFD-CRNN应用声音事件边界框作为后处理步骤,实现了真正的PSDS1得分为0.485,这是在DESED数据集中不使用外部数据集或预训练模型的最佳得分。通过广泛的消融实验结果,我们发现不仅多个动态分支对SED有帮助,特定比例的静态分支也对其有益。此外,为了获得最优的SED性能,除了膨胀动态分支外还需要非膨胀动态分支。这些消融实验的结果和讨论进一步增强了对FDY conv变体的理解和实用性。

代码仓库

frednam93/MDFD-SED
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
sound-event-detection-on-desedABC + MDFD-CRNN
PSDS1: 0.577
sound-event-detection-on-desedMDFD-CRNN
PSDS1: 0.485

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用多膨胀频率动态卷积推动声音事件检测的极限 | 论文 | HyperAI超神经