摘要

要创建一种能够帮助个人在任意两种语言之间进行语音翻译的工具——巴别鱼（Babel Fish），需要哪些条件？尽管基于文本的模型最近取得了突破，使得机器翻译覆盖了超过200种语言，但统一的语音到语音翻译模型尚未取得类似的进展。具体来说，传统的语音到语音翻译系统依赖于级联系统，逐步进行翻译，这使得高性能的统一系统难以实现。为了解决这些差距，我们引入了SeamlessM4T，这是一种支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译以及自动语音识别的单一模型。为了构建这一模型，我们使用了100万小时的开放语音音频数据来学习自监督的语音表示，所使用的工具是w2v-BERT 2.0。随后，我们创建了一个包含自动对齐的语音翻译的多模态语料库。经过筛选并与人工标注和伪标注的数据结合后，我们开发出了首个能够同时处理英语和其他多种语言之间的双向语音和文本翻译的多语言系统。在FLEURS数据集上，SeamlessM4T为多目标语言翻译设定了新的标准，在直接从语音到文本的翻译中比之前的最先进方法提高了20%的BLEU分数。与强大的级联模型相比，SeamlessM4T在从其他语言到英语的语音到文本翻译中提高了1.3个BLEU点，在从其他语言到英语的语音到语音翻译中提高了2.6个ASR-BLEU点。在鲁棒性测试中，我们的系统在应对背景噪音和说话者变化方面表现优于当前最先进的模型。此外，我们还评估了SeamlessM4T在性别偏见方面的表现，并加入了毒性检测以评估其翻译安全性。最后，本研究中的所有贡献均已开源，并可通过https://github.com/facebookresearch/seamless_communication访问。

源 PDF