3 个月前

DENet:一种用于音频监控应用的深度架构

DENet:一种用于音频监控应用的深度架构

摘要

近年来,科学界与产业界对音频监控系统的设计表现出极大兴趣,这类系统能够对音频流进行分析并识别出感兴趣的事件。在安全应用领域尤为突出,音频分析可作为视频分析系统的替代方案,也可与之结合使用,发挥协同效应。在此背景下,本文提出一种新型的循环卷积神经网络架构——DENet。该架构基于一种新型网络层,称为去噪增强(Denoising-Enhancement, DE)层,该层通过在带通滤波信号的各分量上应用注意力图,实现对原始信号的去噪与增强。与现有先进方法不同,DENet直接以无损原始波形作为输入,通过将所提出的DE层与双向门控循环单元(bidirectional gated recurrent unit)相结合,能够自动学习感兴趣频率随时间的演化特征。此外,该方法利用连续帧(即属于同一事件的帧)分类结果所提供的反馈信息,显著降低了误分类率。我们在MIVIA音频事件(MIVIA Audio Events)和MIVIA道路事件(MIVIA Road Events)两个公开数据集上进行了实验,结果验证了所提方法在性能上优于其他现有先进方法。

基准测试

基准方法指标
sound-event-detection-on-mivia-audio-eventsDENet
Rank-1 Recognition Rate: 0.975
sound-event-detection-on-mivia-road-eventsDENet
Rank-1 Recognition Rate: 0.998

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DENet:一种用于音频监控应用的深度架构 | 论文 | HyperAI超神经