3 个月前

TEVR:通过令牌熵方差缩减提升语音识别性能

TEVR:通过令牌熵方差缩减提升语音识别性能

摘要

本文提出了一种名为TEVR的语音识别模型,该模型旨在最小化标记熵(token entropy)相对于语言模型的变化。这一设计充分利用了以下事实:若语言模型本身能够可靠且准确地预测某个标记,则声学模型在识别该标记时无需具备同等高的准确性。我们训练了参数量达9亿的德语自动语音识别(ASR)模型,并在CommonVoice德语数据集上取得了3.64%的词错误率(Word Error Rate, WER),该结果相较于已有报道的最佳性能,实现了相对16.89%的词错误率降低,表现出极强的竞争力。我们期望通过向社区公开完整的训练好的语音识别系统,未来能够推动实现保护用户隐私的离线虚拟助手。

基准测试

基准方法指标
speech-recognition-on-common-voice-germanwav2vec 2.0 XLS-R 1B + TEVR (5-gram)
Test CER: 1.54%
Test WER: 3.64%
speech-recognition-on-common-voice-germanwav2vec 2.0 XLS-R 1B + TEVR (4-gram)
Test WER: 3.70%
speech-recognition-on-common-voice-germanwav2vec 2.0 XLS-R 1B (5-gram)
Test CER: 1.62%
Test WER: 4.38%
speech-recognition-on-common-voice-germanwav2vec 2.0 XLS-R (no LM)
Test WER: 12.06%
speech-recognition-on-common-voice-germanwav2vec 2.0 XLS-R 1B + TEVR (no LM)
Test WER: 10.10%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TEVR:通过令牌熵方差缩减提升语音识别性能 | 论文 | HyperAI超神经