3 个月前

设备端音频分类中的时序知识蒸馏

设备端音频分类中的时序知识蒸馏

摘要

在移动设备计算资源受限的背景下,提升本地音频分类模型的性能仍是一项挑战。现有许多研究采用知识蒸馏技术,通过将大型模型的知识迁移至轻量级设备模型,以增强其预测性能。然而,大多数方法缺乏有效机制来提取并蒸馏时间信息的本质特征——而这一特征对于音频分类任务至关重要——且通常要求师生模型具有相似的网络架构。本文提出一种新型知识蒸馏方法,旨在将基于Transformer的大模型中蕴含的时间依赖信息(通过注意力权重体现)有效迁移到设备端模型中。该方法具有良好的通用性,适用于多种网络架构,包括非注意力机制的模型(如CNN或RNN),且在推理阶段可保持原始网络结构不变。通过在音频事件检测数据集和噪声环境下的关键词检测数据集上进行的大量实验,结果表明,所提方法能够显著提升多种设备端模型的预测性能。

基准测试

基准方法指标
audio-classification-on-fsd50kTemporal Knowledge Distillation for On-device Audio Classification
mAP: 54.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
设备端音频分类中的时序知识蒸馏 | 论文 | HyperAI超神经