3 个月前

频谱校正:基于不匹配录音设备的声学场景分类

频谱校正:基于不匹配录音设备的声学场景分类

摘要

当机器学习算法在有限设备采集的音频数据上进行训练时,往往难以有效泛化到使用其他频率响应特性不同的设备所录制的音频样本。本文提出了一种相对简单的方法来解决这一问题,并介绍了该方法的两种变体:第一种方法需要来自多个设备的对齐样本,第二种方法则减轻了这一限制。该方法适用于音频信号在时域和频域中的各种表示形式。此外,本文还分析了该方法与标准化(standardization)及倒谱均值减除(Cepstral Mean Subtraction, CMS)之间的关联。即使在仅有少量训练样本的情况下,该方法依然表现出良好的有效性。该方法是在“音频场景与事件检测与分类”(Detection and Classification of Acoustic Scenes and Events, DCASE)2019挑战赛中开发的,并在录音设备不匹配的测试场景中取得了75%的准确率,荣获第一名。实验的源代码已公开发布于网络。

代码仓库

基准测试

基准方法指标
acoustic-scene-classification-on-dcase-2019Basic + Spectrum Correction
Accuracy: 70.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
频谱校正:基于不匹配录音设备的声学场景分类 | 论文 | HyperAI超神经