3 个月前

基于Wasserstein均值的无监督多语言对齐

基于Wasserstein均值的无监督多语言对齐

摘要

我们研究无监督多语言对齐问题,即在不使用任何平行语料的情况下,寻找多种语言之间的词对词翻译。一种常见的策略是将多语言对齐简化为更简单的双语设置,通过选取输入语言中的某一语言作为枢纽语言(pivot language)进行语言间转换。然而,众所周知,若选择的枢纽语言不佳(例如英语),可能会严重降低翻译质量,因为语言之间的假设传递关系在训练过程中可能无法得到充分约束。与依赖任意选定的枢纽语言不同,我们提出采用 Wasserstein 重心(Wasserstein barycenter)作为更具信息量的“平均”语言:它融合了所有语言的信息,并最小化了所有语言对之间的运输成本。我们在标准基准数据集上评估了所提出的方法,结果表明其性能达到当前最先进水平。

基准测试

基准方法指标
word-alignment-on-en-esBarycenter Alignment
P@1: 84.26
word-alignment-on-en-frBarycenter Alignment
P@1: 82.94
word-alignment-on-en-itBarycenter Alignment
P@1: 81.45
word-alignment-on-es-enBarycenter Alignment
P@1: 83.5
word-alignment-on-fr-enBarycenter Alignment
P@1: 83.23
word-alignment-on-muse-en-deBarycenter Alignment
P@1: 74.08
word-alignment-on-muse-en-ptBarycenter Alignment
P@1: 84.65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Wasserstein均值的无监督多语言对齐 | 论文 | HyperAI超神经