4 个月前

词项翻译无平行数据

词项翻译无平行数据

摘要

最先进的跨语言词嵌入学习方法依赖于双语词典或平行语料库。最近的研究表明,通过字符级信息可以减轻对平行数据监督的需求。尽管这些方法取得了令人鼓舞的结果,但它们的表现仍不及有监督的方法,并且仅限于共享同一字母表的语言对。在本研究中,我们展示了可以通过无监督的方式对齐单语词嵌入空间,从而在不使用任何平行语料库的情况下构建两种语言之间的双语词典。即使不使用任何字符信息,我们的模型在某些语言对的跨语言任务上甚至超过了现有的有监督方法。我们的实验还证明了该方法对于英语-俄语或英语-汉语等相距较远的语言对也表现出色。最后,我们描述了在资源有限的英语-世界语(Esperanto)语言对上的实验,以展示我们的方法在完全无监督机器翻译中的潜在影响。我们的代码、嵌入和词典均已公开可用。

代码仓库

labdac/charlacompling
GitHub 中提及
barnerwothers/MUSE
pytorch
GitHub 中提及
maochf/MUSE
pytorch
GitHub 中提及
yunsukim86/wbw-lm
pytorch
GitHub 中提及
freedombenLiu/MUSE
pytorch
GitHub 中提及
facebookresearch/MUSE
官方
pytorch
GitHub 中提及
AlexMoreo/funnelling
GitHub 中提及
andreapdr/gfun
pytorch
GitHub 中提及
beinborn/SemanticDrift
pytorch
GitHub 中提及
samnguyen8991/Facebook-MUSE
pytorch
GitHub 中提及
baidu-research/HNN
GitHub 中提及
sabetAI/bucc-eval
pytorch
GitHub 中提及
zzzxiaohong/icbt
pytorch
GitHub 中提及
jiajunhua/facebookresearch-MUSE
pytorch
GitHub 中提及

基准测试

基准方法指标
word-alignment-on-en-esAdv - Refine - CSLS
P@1: 81.7
word-alignment-on-en-frAdv - Refine - CSLS
P@1: 82.3
word-alignment-on-es-enAdv - Refine - CSLS
P@1: 83.3
word-alignment-on-fr-enAdv - Refine - CSLS
P@1: 82.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
词项翻译无平行数据 | 论文 | HyperAI超神经