4 个月前

SpecAugment:一种用于自动语音识别的简单数据增强方法

SpecAugment:一种用于自动语音识别的简单数据增强方法

摘要

我们介绍了SpecAugment,一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。该增强策略包括对特征进行扭曲、遮蔽频率通道块以及遮蔽时间步长块。我们将SpecAugment应用于“听、注意和拼写”网络,以完成端到端的语音识别任务。在LibriSpeech 960小时和Switchboard 300小时任务中,我们达到了最先进的性能,超越了所有先前的工作。在LibriSpeech任务中,我们在不使用语言模型的情况下,在test-other测试集上实现了6.8%的词错误率(WER),而在浅层融合语言模型的情况下,实现了5.8%的WER。这相比之前最先进的混合系统7.5%的WER有所提升。对于Switchboard任务,在Hub5'00测试集的Switchboard/CallHome部分,我们在不使用语言模型的情况下分别实现了7.2%和14.6%的WER,在浅层融合语言模型的情况下分别实现了6.8%和14.1%的WER,相比之下,之前最先进的混合系统的WER为8.3%和17.3%。

代码仓库

shuaijiang/Whisper-Finetune
pytorch
GitHub 中提及
mozilla/DeepSpeech
tf
GitHub 中提及
lRomul/argus-freesound
pytorch
GitHub 中提及
andychinka/dcase-challenge
pytorch
GitHub 中提及
freds0/data_augmentation_for_asr
pytorch
GitHub 中提及
HeleneFabia/keyword-spotter
pytorch
GitHub 中提及
viig99/mixmatch-freesound
pytorch
GitHub 中提及
biyoml/End-to-End-Mandarin-ASR
pytorch
GitHub 中提及
DemisEom/SpecAugment
pytorch
GitHub 中提及
shelling203/SpecAugment
pytorch
GitHub 中提及
ZhengkunTian/OpenTransformer
pytorch
GitHub 中提及
google-research/leaf-audio
tf
GitHub 中提及
kimjeongsun/specaugment
pytorch
GitHub 中提及
jackjhliu/End-to-End-Mandarin-ASR
pytorch
GitHub 中提及
hgstudent/las
tf
GitHub 中提及
park-cheol/ASR-Conformer
pytorch
GitHub 中提及
HLasse/wav2vec_finetune
pytorch
GitHub 中提及
SarthakYadav/audax
jax
GitHub 中提及
iver56/audiomentations
pytorch
GitHub 中提及
audio-westlakeu/rct
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-hub500-switchboardLAS + SpecAugment (with LM, Switchboard mild policy)
CallHome: 14.6
SwitchBoard: 6.8
speech-recognition-on-hub500-switchboardLAS + SpecAugment (with LM, Switchboard strong policy)
CallHome: 14
SwitchBoard: 7.1
speech-recognition-on-librispeech-test-cleanLAS (no LM)
Word Error Rate (WER): 2.7
speech-recognition-on-librispeech-test-cleanLAS + SpecAugment
Word Error Rate (WER): 2.5
speech-recognition-on-librispeech-test-otherLAS + SpecAugment
Word Error Rate (WER): 5.8
speech-recognition-on-librispeech-test-otherLAS (no LM)
Word Error Rate (WER): 6.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SpecAugment:一种用于自动语音识别的简单数据增强方法 | 论文 | HyperAI超神经