3 个月前

G-Augment:面向自动语音识别的数据增强策略元结构搜索

G-Augment:面向自动语音识别的数据增强策略元结构搜索

摘要

数据增强是提升自动语音识别(ASR)训练鲁棒性的常用技术。尽管ASR训练流程的大部分已实现自动化,并趋向于“端到端”模式,但数据增强策略(即采用哪些增强函数及其应用方式)仍依赖人工设计。本文提出Graph-Augment,一种将增强空间建模为有向无环图(DAG)并在此空间中进行搜索以优化增强策略的新方法。实验结果表明,在相同的计算预算下,Graph-Augment生成的增强策略在CHiME-6和AMI数据集的微调任务上,性能优于通过随机搜索获得的SpecAugment策略。此外,Graph-Augment在CHiME-6测试集上取得了新的最优ASR性能,词错误率(WER)降至30.7%。我们还进一步验证,相较于通过随机搜索得到的SpecAugment策略,Graph-Augment策略在从热启动(warm-start)到冷启动(cold-start)训练、以及不同模型规模之间的迁移能力方面均表现出更优的泛化性能。

基准测试

基准方法指标
speech-recognition-on-chime-6-dev-gss12ConformerXXL-PS + G-Augment
Word Error Rate (WER): 26
speech-recognition-on-chime-6-evalConformerXXL-PS + G-Augment
Word Error Rate (WER): 30.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
G-Augment:面向自动语音识别的数据增强策略元结构搜索 | 论文 | HyperAI超神经