
摘要
我们研究了仅训练用于预测互联网上大量音频转录文本的语音处理系统的性能。当扩展到68万小时的多语言和多任务监督时,所得到的模型在标准基准测试中表现出良好的泛化能力,并且在零样本迁移设置下通常能够与先前完全监督的结果相媲美,而无需任何微调。与人类相比,这些模型在准确性和鲁棒性方面接近人类水平。我们将发布模型和推理代码,以作为进一步研究稳健语音处理的基础。
代码仓库
whisperspeech/whisperspeech
pytorch
GitHub 中提及
sanchit-gandhi/whisper-jax
jax
GitHub 中提及
briansidp/whisperbiasing
pytorch
GitHub 中提及
audioshake/alt-eval
GitHub 中提及
collabora/whisperlive
pytorch
GitHub 中提及
pwc-1/Paper-9/tree/main/1/whisper
mindspore
k2-fsa/icefall
pytorch
GitHub 中提及
open-creator/icefall
pytorch
GitHub 中提及
robflynnyh/long-context-asr
pytorch
GitHub 中提及
kadirnar/whisper-plus
pytorch
GitHub 中提及
m-bain/whisperx
pytorch
huggingface/transformers
pytorch
collabora/whisperspeech
pytorch
GitHub 中提及
openai/whisper
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-common-voice-english | Whisper (Large v2) | Word Error Rate (WER): 9.4% |
| speech-recognition-on-common-voice-french | Whisper (Large v2) | Test WER: 13.9% |
| speech-recognition-on-common-voice-german | Whisper (Large v2) | Test WER: 6.4% |
| speech-recognition-on-common-voice-italian | Whisper (Large v2) | Test WER: 7.1% |
| speech-recognition-on-common-voice-japanese | Whisper (Large v2) | Test WER: 9.1% |
| speech-recognition-on-common-voice-russian | Whisper (Large v2) | Test WER: 7.1% |
| speech-recognition-on-common-voice-spanish | Whisper (Large v2) | Test WER: 5.6% |
| speech-to-speech-translation-on-fleurs-x-eng | WhisperV2 | ASR-BLEU: 23.5 |