6 个月前

音频和语音处理

卷积神经网络

Kwanghee Choi Martin Kersner Jacob Morton Buru Chang

摘要

在移动设备计算资源受限的背景下，提升本地音频分类模型的性能仍是一项挑战。现有许多研究采用知识蒸馏技术，通过将大型模型的知识迁移至轻量级设备模型，以增强其预测性能。然而，大多数方法缺乏有效机制来提取并蒸馏时间信息的本质特征——而这一特征对于音频分类任务至关重要——且通常要求师生模型具有相似的网络架构。本文提出一种新型知识蒸馏方法，旨在将基于Transformer的大模型中蕴含的时间依赖信息（通过注意力权重体现）有效迁移到设备端模型中。该方法具有良好的通用性，适用于多种网络架构，包括非注意力机制的模型（如CNN或RNN），且在推理阶段可保持原始网络结构不变。通过在音频事件检测数据集和噪声环境下的关键词检测数据集上进行的大量实验，结果表明，所提方法能够显著提升多种设备端模型的预测性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

卷积神经网络

Kwanghee Choi Martin Kersner Jacob Morton Buru Chang

摘要

在移动设备计算资源受限的背景下，提升本地音频分类模型的性能仍是一项挑战。现有许多研究采用知识蒸馏技术，通过将大型模型的知识迁移至轻量级设备模型，以增强其预测性能。然而，大多数方法缺乏有效机制来提取并蒸馏时间信息的本质特征——而这一特征对于音频分类任务至关重要——且通常要求师生模型具有相似的网络架构。本文提出一种新型知识蒸馏方法，旨在将基于Transformer的大模型中蕴含的时间依赖信息（通过注意力权重体现）有效迁移到设备端模型中。该方法具有良好的通用性，适用于多种网络架构，包括非注意力机制的模型（如CNN或RNN），且在推理阶段可保持原始网络结构不变。通过在音频事件检测数据集和噪声环境下的关键词检测数据集上进行的大量实验，结果表明，所提方法能够显著提升多种设备端模型的预测性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供