4 个月前

SeamlessM4T: 大规模多语言与多模态机器翻译

SeamlessM4T: 大规模多语言与多模态机器翻译

摘要

要创建一种能够帮助个人在任意两种语言之间进行语音翻译的工具——巴别鱼(Babel Fish),需要哪些条件?尽管基于文本的模型最近取得了突破,使得机器翻译覆盖了超过200种语言,但统一的语音到语音翻译模型尚未取得类似的进展。具体来说,传统的语音到语音翻译系统依赖于级联系统,逐步进行翻译,这使得高性能的统一系统难以实现。为了解决这些差距,我们引入了SeamlessM4T,这是一种支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译以及自动语音识别的单一模型。为了构建这一模型,我们使用了100万小时的开放语音音频数据来学习自监督的语音表示,所使用的工具是w2v-BERT 2.0。随后,我们创建了一个包含自动对齐的语音翻译的多模态语料库。经过筛选并与人工标注和伪标注的数据结合后,我们开发出了首个能够同时处理英语和其他多种语言之间的双向语音和文本翻译的多语言系统。在FLEURS数据集上,SeamlessM4T为多目标语言翻译设定了新的标准,在直接从语音到文本的翻译中比之前的最先进方法提高了20%的BLEU分数。与强大的级联模型相比,SeamlessM4T在从其他语言到英语的语音到文本翻译中提高了1.3个BLEU点,在从其他语言到英语的语音到语音翻译中提高了2.6个ASR-BLEU点。在鲁棒性测试中,我们的系统在应对背景噪音和说话者变化方面表现优于当前最先进的模型。此外,我们还评估了SeamlessM4T在性别偏见方面的表现,并加入了毒性检测以评估其翻译安全性。最后,本研究中的所有贡献均已开源,并可通过https://github.com/facebookresearch/seamless_communication访问。

基准测试

基准方法指标
machine-translation-on-flores-200SeamlessM4T-Large-V1
BLEU: 37.5
machine-translation-on-flores95-devtest-eng-xSeamlessM4T-NLLB-1.3B
ChrF++: 49.6
machine-translation-on-flores95-devtest-eng-xSeamlessM4T Medium
ChrF++: 48.4
machine-translation-on-flores95-devtest-eng-xSeamlessM4T Large
ChrF++: 50.9
machine-translation-on-flores95-devtest-x-engSeamlessM4T Large
ChrF++: 60.8
machine-translation-on-flores95-devtest-x-engSeamlessM4T-NLLB-1.3B
ChrF++: 60.7
machine-translation-on-flores95-devtest-x-engSeamlessM4T Medium
ChrF++: 55.4
speech-to-speech-translation-on-cvssSeamlessM4T Medium
ASR-BLEU: 28.1
Parameters: 1.2B
speech-to-speech-translation-on-cvssSeamlessM4T Large
ASR-BLEU: 36.5
Parameters: 2.3B
speech-to-speech-translation-on-fleurs-x-engSeamlessM4T Medium
ASR-BLEU: 20.4
speech-to-speech-translation-on-fleurs-x-engSeamlessM4T Large
ASR-BLEU: 25.8
speech-to-speech-translation-on-fleurs-x-engSeamlessM4T LargeV2
ASR-BLEU: 29.4
speech-to-text-translation-on-covost-2-eng-xSeamlessM4T Large
BLEU: 30.6
speech-to-text-translation-on-covost-2-eng-xSeamlessM4T Medium
BLEU: 26.6
speech-to-text-translation-on-covost-2-x-engSeamlessM4T Medium
BLEU: 29.8
speech-to-text-translation-on-covost-2-x-engSeamlessM4T Large
BLEU: 34.1
speech-to-text-translation-on-fleurs-eng-xSeamlessM4T Medium
BLEU: 19.2
speech-to-text-translation-on-fleurs-eng-xSeamlessM4T Large
BLEU: 21.5
speech-to-text-translation-on-fleurs-x-engSeamlessM4T Medium
BLEU: 20.9
speech-to-text-translation-on-fleurs-x-engSeamlessM4T Large
BLEU: 24.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SeamlessM4T: 大规模多语言与多模态机器翻译 | 论文 | HyperAI超神经