摘要

为实现全球范围内消除语言障碍的愿景，机器翻译已成为当今人工智能研究的核心方向之一。然而，现有努力主要集中在少数高资源语言上，导致绝大多数低资源语言被忽视。如何突破200种语言的翻译瓶颈，在保障翻译质量与安全性的前提下，同时兼顾伦理考量，成为亟待解决的关键问题。在《无语言被遗落》（No Language Left Behind）这一研究中，我们迎难而上。首先，通过与母语者开展探索性访谈，深入理解低资源语言翻译支持的迫切需求；随后，构建了专门针对低资源语言的数据集与模型，旨在缩小低资源语言与高资源语言之间的性能差距。具体而言，我们提出了一种基于稀疏门控专家混合模型（Sparsely Gated Mixture of Experts）的条件计算架构，并利用专为低资源语言设计的新型高效数据挖掘技术获取训练数据。为应对在数千个翻译任务上训练时可能出现的过拟合问题，我们引入了多项架构与训练策略的改进。尤为重要的是，我们采用人类翻译的基准测试集Flores-200，对超过40,000种不同的翻译方向进行了系统评估，并结合一项覆盖Flores-200中所有语言的新型毒性检测基准，全面评估翻译结果的安全性。实验结果表明，我们的模型相较此前的最先进水平，BLEU得分提升了44%，为构建通用翻译系统奠定了重要基础。最后，我们已将本研究中所有成果开源，相关代码与资源可访问：https://github.com/facebookresearch/fairseq/tree/nllb。

源 PDF