
摘要
最先进的跨语言词嵌入学习方法依赖于双语词典或平行语料库。最近的研究表明,通过字符级信息可以减轻对平行数据监督的需求。尽管这些方法取得了令人鼓舞的结果,但它们的表现仍不及有监督的方法,并且仅限于共享同一字母表的语言对。在本研究中,我们展示了可以通过无监督的方式对齐单语词嵌入空间,从而在不使用任何平行语料库的情况下构建两种语言之间的双语词典。即使不使用任何字符信息,我们的模型在某些语言对的跨语言任务上甚至超过了现有的有监督方法。我们的实验还证明了该方法对于英语-俄语或英语-汉语等相距较远的语言对也表现出色。最后,我们描述了在资源有限的英语-世界语(Esperanto)语言对上的实验,以展示我们的方法在完全无监督机器翻译中的潜在影响。我们的代码、嵌入和词典均已公开可用。
代码仓库
labdac/charlacompling
GitHub 中提及
YovaKem/generalized-procrustes-MUSE
pytorch
GitHub 中提及
babylonhealth/MultilingualFactorAnalysis
pytorch
GitHub 中提及
barnerwothers/MUSE
pytorch
GitHub 中提及
Babylonpartners/MultilingualFactorAnalysis
pytorch
GitHub 中提及
maochf/MUSE
pytorch
GitHub 中提及
yunsukim86/wbw-lm
pytorch
GitHub 中提及
freedombenLiu/MUSE
pytorch
GitHub 中提及
facebookresearch/MUSE
官方
pytorch
GitHub 中提及
AlexMoreo/funnelling
GitHub 中提及
andreapdr/gfun
pytorch
GitHub 中提及
beinborn/SemanticDrift
pytorch
GitHub 中提及
samnguyen8991/Facebook-MUSE
pytorch
GitHub 中提及
baidu-research/HNN
GitHub 中提及
sabetAI/bucc-eval
pytorch
GitHub 中提及
zzzxiaohong/icbt
pytorch
GitHub 中提及
jiajunhua/facebookresearch-MUSE
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-alignment-on-en-es | Adv - Refine - CSLS | P@1: 81.7 |
| word-alignment-on-en-fr | Adv - Refine - CSLS | P@1: 82.3 |
| word-alignment-on-es-en | Adv - Refine - CSLS | P@1: 83.3 |
| word-alignment-on-fr-en | Adv - Refine - CSLS | P@1: 82.1 |