4 个月前

双知识蒸馏用于高效的声学事件检测

双知识蒸馏用于高效的声学事件检测

摘要

声事件检测(SED)对于识别声学信号中特定声音及其时间位置至关重要。特别是在设备端应用中,计算资源有限,这一任务变得尤为具有挑战性。为了解决这一问题,本文提出了一种新颖的框架,称为双知识蒸馏(Dual Knowledge Distillation),用于开发高效的SED系统。我们提出的双知识蒸馏方法首先采用时间平均知识蒸馏(Temporal-Averaging Knowledge Distillation, TAKD),通过学生模型参数的时间平均生成一个均值学生模型。这使得学生模型能够间接从预训练的教师模型中学习,确保了稳定的知识蒸馏过程。随后,我们引入了嵌入增强特征蒸馏(Embedding-Enhanced Feature Distillation, EEFD),即在学生模型中加入一个嵌入蒸馏层,以加强上下文学习能力。在DCASE 2023 Task 4A公开评估数据集上,我们提出的采用双知识蒸馏的SED系统仅使用基线模型参数量的三分之一,却在PSDS1和PSDS2指标上表现出优越性能。这突显了所提出的双知识蒸馏方法对紧凑型SED系统的重要性,使其特别适合边缘设备的应用。

基准测试

基准方法指标
sound-event-detection-on-desedSE-CRNN-16 with DualKD
PSDS1: 0.474
PSDS2: 0.698
event-based F1 score: 55.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双知识蒸馏用于高效的声学事件检测 | 论文 | HyperAI超神经