6 个月前

摘要

我们首次证明，仅通过语音音频学习强大的表示特征，随后在标注语音数据上进行微调，即可超越当前最优的半监督方法，且方法在概念上更为简洁。wav2vec 2.0 在潜在空间中对语音输入进行掩码处理，并基于潜在表示的量化结果解决一个对比学习任务，该量化过程与潜在表示共同学习。在使用 Librispeech 全部标注数据的实验中，该方法在干净测试集和其它测试集上的词错误率（WER）分别达到 1.8% 和 3.3%。当将标注数据量降低至仅一小时时，wav2vec 2.0 在 100 小时子集上的表现仍优于此前的最先进方法，且所用标注数据仅为后者的 1/100。即使仅使用十分钟的标注数据，并在 53,000 小时的无标注数据上进行预训练，仍可实现 4.8% / 8.2% 的词错误率。这一结果充分证明了在标注数据极为有限的情况下实现语音识别的可行性。

源 PDF