3 个月前

MTet:面向英语与越南语的多领域翻译

MTet:面向英语与越南语的多领域翻译

摘要

我们提出了MTet,这是目前公开可用的规模最大、质量最高的英越语平行语料库。MTet包含420万条高质量的训练语句对,以及由越南研究社区精心优化的多领域测试集。结合此前在英越语翻译领域的研究成果,我们已将现有平行语料库规模扩展至620万句对。此外,我们还发布了首个针对英语与越南语的预训练模型EnViT5。结合这两项资源,我们的模型在翻译BLEU得分上相较以往最先进方法最高提升达2分,同时模型体积仅为前者的1.6倍,显著更小。

代码仓库

vietai/SAT
tf
GitHub 中提及
vietai/mTet
官方
tf
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2015-english-1EnViT5 + MTet
BLEU: 40.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MTet:面向英语与越南语的多领域翻译 | 论文 | HyperAI超神经