7 个月前

音频和语音处理

卷积神经网络

自然语言处理

自然语言处理

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

摘要

我们介绍了SpecAugment，一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入（即滤波器组系数）。该增强策略包括对特征进行扭曲、遮蔽频率通道块以及遮蔽时间步长块。我们将SpecAugment应用于“听、注意和拼写”网络，以完成端到端的语音识别任务。在LibriSpeech 960小时和Switchboard 300小时任务中，我们达到了最先进的性能，超越了所有先前的工作。在LibriSpeech任务中，我们在不使用语言模型的情况下，在test-other测试集上实现了6.8%的词错误率（WER），而在浅层融合语言模型的情况下，实现了5.8%的WER。这相比之前最先进的混合系统7.5%的WER有所提升。对于Switchboard任务，在Hub5'00测试集的Switchboard/CallHome部分，我们在不使用语言模型的情况下分别实现了7.2%和14.6%的WER，在浅层融合语言模型的情况下分别实现了6.8%和14.1%的WER，相比之下，之前最先进的混合系统的WER为8.3%和17.3%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

音频和语音处理

卷积神经网络

自然语言处理

自然语言处理

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

摘要

我们介绍了SpecAugment，一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入（即滤波器组系数）。该增强策略包括对特征进行扭曲、遮蔽频率通道块以及遮蔽时间步长块。我们将SpecAugment应用于“听、注意和拼写”网络，以完成端到端的语音识别任务。在LibriSpeech 960小时和Switchboard 300小时任务中，我们达到了最先进的性能，超越了所有先前的工作。在LibriSpeech任务中，我们在不使用语言模型的情况下，在test-other测试集上实现了6.8%的词错误率（WER），而在浅层融合语言模型的情况下，实现了5.8%的WER。这相比之前最先进的混合系统7.5%的WER有所提升。对于Switchboard任务，在Hub5'00测试集的Switchboard/CallHome部分，我们在不使用语言模型的情况下分别实现了7.2%和14.6%的WER，在浅层融合语言模型的情况下分别实现了6.8%和14.1%的WER，相比之下，之前最先进的混合系统的WER为8.3%和17.3%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供