6 个月前

音频和语音处理

自然语言处理

自然语言处理

Zoltán Tüske George Saon Kartik Audhkhasi Brian Kingsbury

摘要

普遍认为，只有在拥有至少一千小时规模的训练数据时，端到端的序列到序列（seq2seq）语音识别模型才能与混合模型相媲美。本文表明，仅采用单一注意力头、基于LSTM的模型，即可在Switchboard-300数据集上实现当前最先进的识别性能。通过引入跨话语语言模型，我们的单次遍历、说话人无关系统在Hub5'00的Switchboard和CallHome子集上分别取得了6.4%和12.5%的词错误率（WER），且无需使用发音词典。尽管精心设计的正则化策略与数据增强技术对于达到这一性能水平至关重要，但在Switchboard-2000上的实验进一步表明，数据量的增加仍是提升性能最有效的手段。总体而言，结合多种正则化方法与一个结构简单但规模较大的模型，我们实现了新的最优水平：在Switchboard和CallHome数据集上分别达到4.7%和7.8%的WER，且仅使用SWB-2000数据，无需依赖任何外部数据资源。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

自然语言处理

自然语言处理

Zoltán Tüske George Saon Kartik Audhkhasi Brian Kingsbury

摘要

普遍认为，只有在拥有至少一千小时规模的训练数据时，端到端的序列到序列（seq2seq）语音识别模型才能与混合模型相媲美。本文表明，仅采用单一注意力头、基于LSTM的模型，即可在Switchboard-300数据集上实现当前最先进的识别性能。通过引入跨话语语言模型，我们的单次遍历、说话人无关系统在Hub5'00的Switchboard和CallHome子集上分别取得了6.4%和12.5%的词错误率（WER），且无需使用发音词典。尽管精心设计的正则化策略与数据增强技术对于达到这一性能水平至关重要，但在Switchboard-2000上的实验进一步表明，数据量的增加仍是提升性能最有效的手段。总体而言，结合多种正则化方法与一个结构简单但规模较大的模型，我们实现了新的最优水平：在Switchboard和CallHome数据集上分别达到4.7%和7.8%的WER，且仅使用SWB-2000数据，无需依赖任何外部数据资源。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供