3 个月前

XLS-R:大规模自监督跨语言语音表示学习

XLS-R:大规模自监督跨语言语音表示学习

摘要

本文介绍了XLS-R,一种基于wav2vec 2.0架构的大规模跨语言语音表示学习模型。我们在近50万小时的公开语音音频数据上训练了参数规模高达20亿的模型,覆盖128种语言,所用公开数据量较目前已知最大的同类工作高出一个数量级。我们的评估涵盖了广泛的任务类型、应用领域、数据配置以及高资源与低资源语言。在CoVoST-2语音翻译基准测试中,XLS-R在21个向英语的翻译方向上平均提升了7.4的BLEU分数,显著超越此前的最先进水平。在语音识别任务中,XLS-R在BABEL、MLS、CommonVoice以及VoxPopuli等多个基准上均优于现有最佳方法,平均相对词错误率降低14%至34%。此外,XLS-R在VoxLingua107语言识别任务上也取得了新的最先进性能。更重要的是,我们证明了在模型规模足够大的情况下,跨语言预训练甚至可以超越仅基于英语的预训练方法,即便在英语语音翻译为其他语言这一通常更有利于单语预训练的场景下亦如此。我们期望XLS-R能够推动全球更多语言的语音处理技术进步。

代码仓库

pytorch/fairseq
官方
pytorch
gatech-eic/s3-router
pytorch
GitHub 中提及

基准测试

基准方法指标
language-identification-on-voxlingua107-1XLS-R
Error rate: 5.7
language-identification-on-voxlingua107-1wav2vec 2.0 LV-60K
Error rate: 7.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
XLS-R:大规模自监督跨语言语音表示学习 | 论文 | HyperAI超神经