4 个月前

地理距离是新的超参数:英语-isiZulu 机器翻译中寻找最优预训练语言的案例研究

地理距离是新的超参数:英语-isiZulu 机器翻译中寻找最优预训练语言的案例研究

摘要

由于isiZulu等低资源语言的数据集和文本资源有限,迫切需要利用预训练模型的知识来改进低资源机器翻译。此外,缺乏处理形态丰富语言复杂性的技术进一步加剧了翻译模型发展的不平等,导致许多广泛使用的非洲语言被远远落在后面。本研究探讨了在英语-isiZulu翻译框架中迁移学习的潜在优势。结果表明,从密切相关语言进行迁移学习可以显著提升低资源翻译模型的性能,从而为未来的低资源翻译提供了一种关键策略。我们收集了来自8个不同语言语料库的结果,包括一个多语种语料库,并发现isiXhosa-isiZulu的表现优于所有其他语言,在测试集上的BLEU得分为8.56,比多语种语料库预训练模型高出2.73分。我们还提出了一种新的系数——Nasir的地理距离系数(NGDC),该系数为选择预训练模型的语言提供了简便的方法。NGDC也指出,isiXhosa应作为预训练模型的选择语言。

代码仓库

基准测试

基准方法指标
low-resource-neural-machine-translation-onhttps://huggingface.co/MUNasir/umsuka-en-zu
BLEU: 13.73

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
地理距离是新的超参数:英语-isiZulu 机器翻译中寻找最优预训练语言的案例研究 | 论文 | HyperAI超神经