
摘要
我们提出了首个用于埃爾濟亞語(Erzya)与俄語之间互译的神经机器翻译系统,并构建了用于训练和评估该系统的语料库。在翻译至埃爾濟亞語和俄語方向上的BLEU得分分别为17和19,且超过一半的翻译结果获得母语者评定为可接受。此外,我们还将该模型拓展至埃爾濟亞語与其他10种语言之间的翻译任务,但由于缺乏额外的平行语料,这些方向的翻译质量仍较低。我们已将翻译模型、所收集的文本语料库、一种新的语言识别模型,以及专为埃爾濟亞語优化的多语言句子编码器一并开源,相关资源可访问 https://github.com/slone-nlp/myv-nmt 获取。
代码仓库
slone-nlp/myv-nmt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-slone-myv-ru-2022-myv | slone/mbart-large-51-myv-mul-v1 | ChrF++: 38.63 |
| machine-translation-on-slone-myv-ru-2022-ru | slone/mbart-large-51-mul-myv-v1 | ChrF++: 41.16 |