6 个月前

音频和语音处理

多任务学习

Zengwei Yao Wei Kang Xiaoyu Yang Fangjun Kuang Liyong Guo Han Zhu Zengrui Jin Zhaoqing Li Long Lin Daniel Povey

摘要

连接时序分类（Connectionist Temporal Classification, CTC）是一种广泛应用于自动语音识别（ASR）领域的经典方法，以其结构简单和计算高效而著称。然而，其识别性能往往受限。本文提出了一种一致性正则化CTC（Consistency-Regularized CTC, CR-CTC）方法，通过强制对输入语音梅尔频谱图的不同增强视图所生成的两个CTC分布之间保持一致性，从而提升模型性能。我们从三个角度深入分析了该方法的核心机制：1）在处理不同增强视图的随机子模型对之间进行自蒸馏（self-distillation）；2）通过在时间掩码区域内的位置进行掩码预测，学习上下文表征，尤其在增加时间掩码比例时效果更为显著；3）抑制CTC输出分布中极端尖锐的峰值，有效缓解过拟合问题，提升模型的泛化能力。在LibriSpeech、Aishell-1和GigaSpeech等多个公开数据集上的大量实验表明，所提出的CR-CTC方法具有显著有效性。其在CTC框架下的性能大幅提升，达到与基于转换器（transducer）或结合CTC与基于注意力的编码器-解码器结构（CTC/AED）相当的先进水平。相关代码已开源，地址为：https://github.com/k2-fsa/icefall。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Zengwei Yao Wei Kang Xiaoyu Yang Fangjun Kuang Liyong Guo Han Zhu Zengrui Jin Zhaoqing Li Long Lin Daniel Povey

摘要

连接时序分类（Connectionist Temporal Classification, CTC）是一种广泛应用于自动语音识别（ASR）领域的经典方法，以其结构简单和计算高效而著称。然而，其识别性能往往受限。本文提出了一种一致性正则化CTC（Consistency-Regularized CTC, CR-CTC）方法，通过强制对输入语音梅尔频谱图的不同增强视图所生成的两个CTC分布之间保持一致性，从而提升模型性能。我们从三个角度深入分析了该方法的核心机制：1）在处理不同增强视图的随机子模型对之间进行自蒸馏（self-distillation）；2）通过在时间掩码区域内的位置进行掩码预测，学习上下文表征，尤其在增加时间掩码比例时效果更为显著；3）抑制CTC输出分布中极端尖锐的峰值，有效缓解过拟合问题，提升模型的泛化能力。在LibriSpeech、Aishell-1和GigaSpeech等多个公开数据集上的大量实验表明，所提出的CR-CTC方法具有显著有效性。其在CTC框架下的性能大幅提升，达到与基于转换器（transducer）或结合CTC与基于注意力的编码器-解码器结构（CTC/AED）相当的先进水平。相关代码已开源，地址为：https://github.com/k2-fsa/icefall。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供