3 个月前

无语言被遗忘:以人为中心的机器翻译规模化

无语言被遗忘:以人为中心的机器翻译规模化

摘要

为实现全球范围内消除语言障碍的愿景,机器翻译已成为当今人工智能研究的核心方向之一。然而,现有努力主要集中在少数高资源语言上,导致绝大多数低资源语言被忽视。如何突破200种语言的翻译瓶颈,在保障翻译质量与安全性的前提下,同时兼顾伦理考量,成为亟待解决的关键问题。在《无语言被遗落》(No Language Left Behind)这一研究中,我们迎难而上。首先,通过与母语者开展探索性访谈,深入理解低资源语言翻译支持的迫切需求;随后,构建了专门针对低资源语言的数据集与模型,旨在缩小低资源语言与高资源语言之间的性能差距。具体而言,我们提出了一种基于稀疏门控专家混合模型(Sparsely Gated Mixture of Experts)的条件计算架构,并利用专为低资源语言设计的新型高效数据挖掘技术获取训练数据。为应对在数千个翻译任务上训练时可能出现的过拟合问题,我们引入了多项架构与训练策略的改进。尤为重要的是,我们采用人类翻译的基准测试集Flores-200,对超过40,000种不同的翻译方向进行了系统评估,并结合一项覆盖Flores-200中所有语言的新型毒性检测基准,全面评估翻译结果的安全性。实验结果表明,我们的模型相较此前的最先进水平,BLEU得分提升了44%,为构建通用翻译系统奠定了重要基础。最后,我们已将本研究中所有成果开源,相关代码与资源可访问:https://github.com/facebookresearch/fairseq/tree/nllb。

代码仓库

andreeaiana/xmind
GitHub 中提及
zurichnlp/nmtscore
pytorch
GitHub 中提及
xhluca/dl-translate
pytorch
GitHub 中提及
ragerri/antidote-projections
pytorch
GitHub 中提及
ai4bharat/indicbert
tf
GitHub 中提及
facebookresearch/sonar
pytorch
GitHub 中提及
xhlulu/dl-translate
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无语言被遗忘:以人为中心的机器翻译规模化 | 论文 | HyperAI超神经