摘要
我们从互联网上的公开数据源收集数据,并将其分类至不同类别,每类均标注有特定的语言风格。总计包含330万对英越文文本,涵盖从单句到段落的多种文本形式。使用本数据集训练的模型在一组多样化的文本来源上,性能优于Google Translate。在IWSLT'15评测中,该模型取得了37.84的BLEU分数。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-iwslt2015-english-1 | Tall Transformer with Style-Augmented Training | BLEU: 37.8 |