3 个月前

wav2vec 2.0:一种用于语音表征自监督学习的框架

wav2vec 2.0:一种用于语音表征自监督学习的框架

摘要

我们首次证明,仅通过语音音频学习强大的表示特征,随后在标注语音数据上进行微调,即可超越当前最优的半监督方法,且方法在概念上更为简洁。wav2vec 2.0 在潜在空间中对语音输入进行掩码处理,并基于潜在表示的量化结果解决一个对比学习任务,该量化过程与潜在表示共同学习。在使用 Librispeech 全部标注数据的实验中,该方法在干净测试集和其它测试集上的词错误率(WER)分别达到 1.8% 和 3.3%。当将标注数据量降低至仅一小时时,wav2vec 2.0 在 100 小时子集上的表现仍优于此前的最先进方法,且所用标注数据仅为后者的 1/100。即使仅使用十分钟的标注数据,并在 53,000 小时的无标注数据上进行预训练,仍可实现 4.8% / 8.2% 的词错误率。这一结果充分证明了在标注数据极为有限的情况下实现语音识别的可行性。

代码仓库

neonbjb/ocotillo
pytorch
GitHub 中提及
vasudevgupta7/gsoc-wav2vec2
tf
GitHub 中提及
pytorch/fairseq
官方
pytorch
facebookresearch/brainmagick
pytorch
GitHub 中提及
liutianlin0121/seislm
pytorch
GitHub 中提及
gatech-eic/s3-router
pytorch
GitHub 中提及
eastonYi/wav2vec
pytorch
GitHub 中提及
HarunoriKawano/Wav2vec2.0
pytorch
GitHub 中提及
nlp-en-es/wav2vec2-spanish
jax
GitHub 中提及
phanxuanphucnd/Arizona-asr
pytorch
GitHub 中提及
AIdeaLab/wav2vec2_docker
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
Arizona-Voice/Arizona-spotting
pytorch
GitHub 中提及
huseinzol05/malaya-speech
tf
GitHub 中提及
shivangi-aneja/FaceTalk
pytorch
GitHub 中提及
phanxuanphucnd/wav2asr
GitHub 中提及
BirgerMoell/tmh
pytorch
GitHub 中提及
JoungheeKim/Non-Attentive-Tacotron
pytorch
GitHub 中提及
sh-lee-prml/hierspeechpp
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-libri-light-test-cleanwav2vec 2.0 Large-10h-LV-60k
Word Error Rate (WER): 2.5
speech-recognition-on-libri-light-test-otherwav2vec 2.0 Large-10h-LV-60k
Word Error Rate (WER): 5.0
speech-recognition-on-librispeech-test-cleanwav2vec 2.0 with Libri-Light
Word Error Rate (WER): 1.8
speech-recognition-on-librispeech-test-otherwav2vec 2.0 with Libri-Light
Word Error Rate (WER): 3.0
speech-recognition-on-librispeech-test-otherwav2vec 2.0
Word Error Rate (WER): 4.1
speech-recognition-on-timitwav2vec 2.0
Percentage error: 8.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
wav2vec 2.0:一种用于语音表征自监督学习的框架 | 论文 | HyperAI超神经