NLLB TeamMarta R. Costa-jussàJames CrossOnur ÇelebiMaha ElbayadKenneth HeafieldKevin HeffernanElahe KalbassiJanice LamDaniel LichtJean MaillardAnna SunSkyler WangGuillaume WenzekAl YoungbloodBapi AkulaLoic BarraultGabriel Mejia GonzalezPrangthip HansantiJohn HoffmanSemarley JarrettKaushik Ram SadagopanDirk RoweShannon SpruitChau TranPierre AndrewsNecip Fazil AyanShruti BhosaleSergey EdunovAngela FanCynthia GaoVedanuj GoswamiFrancisco GuzmánPhilipp KoehnAlexandre MourachkoChristophe RopersSafiyyah SaleemHolger SchwenkJeff Wang

摘要
为实现全球范围内消除语言障碍的愿景,机器翻译已成为当今人工智能研究的核心方向之一。然而,现有努力主要集中在少数高资源语言上,导致绝大多数低资源语言被忽视。如何突破200种语言的翻译瓶颈,在保障翻译质量与安全性的前提下,同时兼顾伦理考量,成为亟待解决的关键问题。在《无语言被遗落》(No Language Left Behind)这一研究中,我们迎难而上。首先,通过与母语者开展探索性访谈,深入理解低资源语言翻译支持的迫切需求;随后,构建了专门针对低资源语言的数据集与模型,旨在缩小低资源语言与高资源语言之间的性能差距。具体而言,我们提出了一种基于稀疏门控专家混合模型(Sparsely Gated Mixture of Experts)的条件计算架构,并利用专为低资源语言设计的新型高效数据挖掘技术获取训练数据。为应对在数千个翻译任务上训练时可能出现的过拟合问题,我们引入了多项架构与训练策略的改进。尤为重要的是,我们采用人类翻译的基准测试集Flores-200,对超过40,000种不同的翻译方向进行了系统评估,并结合一项覆盖Flores-200中所有语言的新型毒性检测基准,全面评估翻译结果的安全性。实验结果表明,我们的模型相较此前的最先进水平,BLEU得分提升了44%,为构建通用翻译系统奠定了重要基础。最后,我们已将本研究中所有成果开源,相关代码与资源可访问:https://github.com/facebookresearch/fairseq/tree/nllb。
代码仓库
andreeaiana/xmind
GitHub 中提及
facebookresearch/fairseq
官方
pytorch
zurichnlp/nmtscore
pytorch
GitHub 中提及
xhluca/dl-translate
pytorch
GitHub 中提及
ragerri/antidote-projections
pytorch
GitHub 中提及
ai4bharat/indicbert
tf
GitHub 中提及
facebookresearch/stopes
官方
pytorch
facebookresearch/sonar
pytorch
GitHub 中提及
xhlulu/dl-translate
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-flores-200 | NLLB-3.3B | BLEU: 37.5 |
| machine-translation-on-iwslt2015-english-1 | NLLB-200 | - |
| machine-translation-on-iwslt2017-arabic | NLLB-200 | SacreBLEU: 44.7 |
| machine-translation-on-iwslt2017-english | NLLB-200 | SacreBLEU: 43 |
| machine-translation-on-iwslt2017-english-1 | NLLB-200 | SacreBLEU: 25.2 |
| machine-translation-on-iwslt2017-french | NLLB-200 | SacreBLEU: 45.8 |