
摘要
我们首次证明,仅通过语音音频学习强大的表示特征,随后在标注语音数据上进行微调,即可超越当前最优的半监督方法,且方法在概念上更为简洁。wav2vec 2.0 在潜在空间中对语音输入进行掩码处理,并基于潜在表示的量化结果解决一个对比学习任务,该量化过程与潜在表示共同学习。在使用 Librispeech 全部标注数据的实验中,该方法在干净测试集和其它测试集上的词错误率(WER)分别达到 1.8% 和 3.3%。当将标注数据量降低至仅一小时时,wav2vec 2.0 在 100 小时子集上的表现仍优于此前的最先进方法,且所用标注数据仅为后者的 1/100。即使仅使用十分钟的标注数据,并在 53,000 小时的无标注数据上进行预训练,仍可实现 4.8% / 8.2% 的词错误率。这一结果充分证明了在标注数据极为有限的情况下实现语音识别的可行性。
代码仓库
neonbjb/ocotillo
pytorch
GitHub 中提及
wenet-e2e/wenet
pytorch
vasudevgupta7/gsoc-wav2vec2
tf
GitHub 中提及
pytorch/fairseq
官方
pytorch
facebookresearch/brainmagick
pytorch
GitHub 中提及
liutianlin0121/seislm
pytorch
GitHub 中提及
gatech-eic/s3-router
pytorch
GitHub 中提及
eastonYi/wav2vec
pytorch
GitHub 中提及
HarunoriKawano/Wav2vec2.0
pytorch
GitHub 中提及
phanxuanphucnd/Arizona-spotting
GitHub 中提及
nlp-en-es/wav2vec2-spanish
jax
GitHub 中提及
phanxuanphucnd/Arizona-asr
pytorch
GitHub 中提及
AIdeaLab/wav2vec2_docker
pytorch
GitHub 中提及
mailong25/self-supervised-speech-recognition
pytorch
GitHub 中提及
mailong25/vietnamese-speech-recognition
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
Arizona-Voice/Arizona-spotting
pytorch
GitHub 中提及
huseinzol05/malaya-speech
tf
GitHub 中提及
shivangi-aneja/FaceTalk
pytorch
GitHub 中提及
phanxuanphucnd/wav2asr
GitHub 中提及
BirgerMoell/tmh
pytorch
GitHub 中提及
JoungheeKim/Non-Attentive-Tacotron
pytorch
GitHub 中提及
sh-lee-prml/hierspeechpp
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-libri-light-test-clean | wav2vec 2.0 Large-10h-LV-60k | Word Error Rate (WER): 2.5 |
| speech-recognition-on-libri-light-test-other | wav2vec 2.0 Large-10h-LV-60k | Word Error Rate (WER): 5.0 |
| speech-recognition-on-librispeech-test-clean | wav2vec 2.0 with Libri-Light | Word Error Rate (WER): 1.8 |
| speech-recognition-on-librispeech-test-other | wav2vec 2.0 with Libri-Light | Word Error Rate (WER): 3.0 |
| speech-recognition-on-librispeech-test-other | wav2vec 2.0 | Word Error Rate (WER): 4.1 |
| speech-recognition-on-timit | wav2vec 2.0 | Percentage error: 8.3 |