6 个月前

音频和语音处理

多任务学习

Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu Naman Goyal Kritika Singh Patrick von Platen Yatharth Saraf Juan Pino

摘要

本文介绍了XLS-R，一种基于wav2vec 2.0架构的大规模跨语言语音表示学习模型。我们在近50万小时的公开语音音频数据上训练了参数规模高达20亿的模型，覆盖128种语言，所用公开数据量较目前已知最大的同类工作高出一个数量级。我们的评估涵盖了广泛的任务类型、应用领域、数据配置以及高资源与低资源语言。在CoVoST-2语音翻译基准测试中，XLS-R在21个向英语的翻译方向上平均提升了7.4的BLEU分数，显著超越此前的最先进水平。在语音识别任务中，XLS-R在BABEL、MLS、CommonVoice以及VoxPopuli等多个基准上均优于现有最佳方法，平均相对词错误率降低14%至34%。此外，XLS-R在VoxLingua107语言识别任务上也取得了新的最先进性能。更重要的是，我们证明了在模型规模足够大的情况下，跨语言预训练甚至可以超越仅基于英语的预训练方法，即便在英语语音翻译为其他语言这一通常更有利于单语预训练的场景下亦如此。我们期望XLS-R能够推动全球更多语言的语音处理技术进步。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Arun Babu Changhan Wang Andros Tjandra Kushal Lakhotia Qiantong Xu Naman Goyal Kritika Singh Patrick von Platen Yatharth Saraf Juan Pino

摘要

本文介绍了XLS-R，一种基于wav2vec 2.0架构的大规模跨语言语音表示学习模型。我们在近50万小时的公开语音音频数据上训练了参数规模高达20亿的模型，覆盖128种语言，所用公开数据量较目前已知最大的同类工作高出一个数量级。我们的评估涵盖了广泛的任务类型、应用领域、数据配置以及高资源与低资源语言。在CoVoST-2语音翻译基准测试中，XLS-R在21个向英语的翻译方向上平均提升了7.4的BLEU分数，显著超越此前的最先进水平。在语音识别任务中，XLS-R在BABEL、MLS、CommonVoice以及VoxPopuli等多个基准上均优于现有最佳方法，平均相对词错误率降低14%至34%。此外，XLS-R在VoxLingua107语言识别任务上也取得了新的最先进性能。更重要的是，我们证明了在模型规模足够大的情况下，跨语言预训练甚至可以超越仅基于英语的预训练方法，即便在英语语音翻译为其他语言这一通常更有利于单语预训练的场景下亦如此。我们期望XLS-R能够推动全球更多语言的语音处理技术进步。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供