4 个月前

基于大规模弱监督的鲁棒语音识别

基于大规模弱监督的鲁棒语音识别

摘要

我们研究了仅训练用于预测互联网上大量音频转录文本的语音处理系统的性能。当扩展到68万小时的多语言和多任务监督时,所得到的模型在标准基准测试中表现出良好的泛化能力,并且在零样本迁移设置下通常能够与先前完全监督的结果相媲美,而无需任何微调。与人类相比,这些模型在准确性和鲁棒性方面接近人类水平。我们将发布模型和推理代码,以作为进一步研究稳健语音处理的基础。

代码仓库

whisperspeech/whisperspeech
pytorch
GitHub 中提及
sanchit-gandhi/whisper-jax
jax
GitHub 中提及
briansidp/whisperbiasing
pytorch
GitHub 中提及
audioshake/alt-eval
GitHub 中提及
collabora/whisperlive
pytorch
GitHub 中提及
k2-fsa/icefall
pytorch
GitHub 中提及
open-creator/icefall
pytorch
GitHub 中提及
robflynnyh/long-context-asr
pytorch
GitHub 中提及
kadirnar/whisper-plus
pytorch
GitHub 中提及
collabora/whisperspeech
pytorch
GitHub 中提及
openai/whisper
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-common-voice-englishWhisper (Large v2)
Word Error Rate (WER): 9.4%
speech-recognition-on-common-voice-frenchWhisper (Large v2)
Test WER: 13.9%
speech-recognition-on-common-voice-germanWhisper (Large v2)
Test WER: 6.4%
speech-recognition-on-common-voice-italianWhisper (Large v2)
Test WER: 7.1%
speech-recognition-on-common-voice-japaneseWhisper (Large v2)
Test WER: 9.1%
speech-recognition-on-common-voice-russianWhisper (Large v2)
Test WER: 7.1%
speech-recognition-on-common-voice-spanishWhisper (Large v2)
Test WER: 5.6%
speech-to-speech-translation-on-fleurs-x-engWhisperV2
ASR-BLEU: 23.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于大规模弱监督的鲁棒语音识别 | 论文 | HyperAI超神经