3 个月前

通过直通梯度实现端到端语音识别的高效神经架构搜索

通过直通梯度实现端到端语音识别的高效神经架构搜索

摘要

神经架构搜索(Neural Architecture Search, NAS)作为一种自动化网络架构设计的技术,是推动端到端自动语音识别(Automatic Speech Recognition, ASR)发展的关键下一步,其目标是用任务特定的可学习架构替代人工设计的网络结构。与早期计算开销巨大的NAS方法相比,近年来基于梯度的NAS方法(如DARTS、SNAS和ProxylessNAS)显著提升了NAS的效率。本文做出两项主要贡献:首先,我们系统性地提出了一种基于直通(Straight-Through, ST)梯度的高效NAS方法,称为ST-NAS。该方法在SNAS损失函数的基础上,采用ST梯度对离散变量进行反向传播以优化目标函数,这一机制在ProxylessNAS中并未被明确揭示。利用ST梯度支持子图采样,是实现超越DARTS和SNAS效率的关键技术要素。其次,我们成功将ST-NAS应用于端到端ASR任务。在广泛使用的80小时WSJ和300小时Switchboard数据集上的实验结果表明,由ST-NAS生成的网络架构在两个数据集上均显著优于人工设计的基准架构。此外,本文还验证了ST-NAS在架构可迁移性以及内存与时间开销方面的显著优势,展现出其在实际应用中的高效潜力。

代码仓库

thu-spmi/ST-NAS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-wsj-dev93CTC-CRF ST-NAS
Word Error Rate (WER): 5.68
speech-recognition-on-wsj-eval92CTC-CRF ST-NAS
Word Error Rate (WER): 2.77

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过直通梯度实现端到端语音识别的高效神经架构搜索 | 论文 | HyperAI超神经