8 个月前

音频和语音处理

自然语言处理

自然语言处理

Zoltán Tüske George Saon Brian Kingsbury

摘要

在我们之前的研究中，我们已经证明了单头注意力编码器-解码器模型能够在对话语音识别中达到最先进的结果。本文中，我们在Switchboard 300和2000数据集上进一步提高了这些结果。通过使用改进的优化器、说话人向量嵌入以及替代的语音表示方法，我们将LSTM系统在Switchboard-300上的识别错误率相对降低了4%。通过概率比方法对解码器模型进行补偿，可以更有效地集成外部语言模型，我们在Hub5'00的SWB和CHM部分分别报告了5.9%和11.5%的词错误率（WER），所使用的LSTM模型非常简单。我们的研究还考虑了最近提出的Conformer模型以及更为先进的基于自注意力机制的语言模型。总体而言，Conformer的表现与LSTM相似；然而，它们的组合以及使用改进的语言模型进行解码，在Switchboard-300上达到了新的记录，SWB和CHM部分的词错误率分别为5.0%和10.0%。我们的发现也在Switchboard-2000数据集上得到了验证，并报告了新的最先进水平，实际上已达到该基准测试的极限。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

自然语言处理

自然语言处理

Zoltán Tüske George Saon Brian Kingsbury

摘要

在我们之前的研究中，我们已经证明了单头注意力编码器-解码器模型能够在对话语音识别中达到最先进的结果。本文中，我们在Switchboard 300和2000数据集上进一步提高了这些结果。通过使用改进的优化器、说话人向量嵌入以及替代的语音表示方法，我们将LSTM系统在Switchboard-300上的识别错误率相对降低了4%。通过概率比方法对解码器模型进行补偿，可以更有效地集成外部语言模型，我们在Hub5'00的SWB和CHM部分分别报告了5.9%和11.5%的词错误率（WER），所使用的LSTM模型非常简单。我们的研究还考虑了最近提出的Conformer模型以及更为先进的基于自注意力机制的语言模型。总体而言，Conformer的表现与LSTM相似；然而，它们的组合以及使用改进的语言模型进行解码，在Switchboard-300上达到了新的记录，SWB和CHM部分的词错误率分别为5.0%和10.0%。我们的发现也在Switchboard-2000数据集上得到了验证，并报告了新的最先进水平，实际上已达到该基准测试的极限。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供