
摘要
我们研究无监督多语言对齐问题,即在不使用任何平行语料的情况下,寻找多种语言之间的词对词翻译。一种常见的策略是将多语言对齐简化为更简单的双语设置,通过选取输入语言中的某一语言作为枢纽语言(pivot language)进行语言间转换。然而,众所周知,若选择的枢纽语言不佳(例如英语),可能会严重降低翻译质量,因为语言之间的假设传递关系在训练过程中可能无法得到充分约束。与依赖任意选定的枢纽语言不同,我们提出采用 Wasserstein 重心(Wasserstein barycenter)作为更具信息量的“平均”语言:它融合了所有语言的信息,并最小化了所有语言对之间的运输成本。我们在标准基准数据集上评估了所提出的方法,结果表明其性能达到当前最先进水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-alignment-on-en-es | Barycenter Alignment | P@1: 84.26 |
| word-alignment-on-en-fr | Barycenter Alignment | P@1: 82.94 |
| word-alignment-on-en-it | Barycenter Alignment | P@1: 81.45 |
| word-alignment-on-es-en | Barycenter Alignment | P@1: 83.5 |
| word-alignment-on-fr-en | Barycenter Alignment | P@1: 83.23 |
| word-alignment-on-muse-en-de | Barycenter Alignment | P@1: 74.08 |
| word-alignment-on-muse-en-pt | Barycenter Alignment | P@1: 84.65 |