HyperAIHyperAI

Command Palette

Search for a command to run...

无语言被遗忘:以人为中心的机器翻译规模化

摘要

为实现全球范围内消除语言障碍的愿景,机器翻译已成为当今人工智能研究的核心方向之一。然而,现有努力主要集中在少数高资源语言上,导致绝大多数低资源语言被忽视。如何突破200种语言的翻译瓶颈,在保障翻译质量与安全性的前提下,同时兼顾伦理考量,成为亟待解决的关键问题。在《无语言被遗落》(No Language Left Behind)这一研究中,我们迎难而上。首先,通过与母语者开展探索性访谈,深入理解低资源语言翻译支持的迫切需求;随后,构建了专门针对低资源语言的数据集与模型,旨在缩小低资源语言与高资源语言之间的性能差距。具体而言,我们提出了一种基于稀疏门控专家混合模型(Sparsely Gated Mixture of Experts)的条件计算架构,并利用专为低资源语言设计的新型高效数据挖掘技术获取训练数据。为应对在数千个翻译任务上训练时可能出现的过拟合问题,我们引入了多项架构与训练策略的改进。尤为重要的是,我们采用人类翻译的基准测试集Flores-200,对超过40,000种不同的翻译方向进行了系统评估,并结合一项覆盖Flores-200中所有语言的新型毒性检测基准,全面评估翻译结果的安全性。实验结果表明,我们的模型相较此前的最先进水平,BLEU得分提升了44%,为构建通用翻译系统奠定了重要基础。最后,我们已将本研究中所有成果开源,相关代码与资源可访问:https://github.com/facebookresearch/fairseq/tree/nllb


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无语言被遗忘:以人为中心的机器翻译规模化 | 论文 | HyperAI超神经