4 个月前

无需词对齐的多语言分布式表示

无需词对齐的多语言分布式表示

摘要

分布式意义表示是自然语言处理(NLP)中一种自然的方法,用于编码词语和短语之间的协方差关系。通过克服数据稀疏问题,并提供离散表示无法提供的语义相关性信息,分布式表示在许多NLP任务中证明了其有效性。近期的研究表明,组合语义表示可以成功应用于单语应用,如情感分析。与此同时,跨语言学习共享词汇级表示的工作也取得了一些初步的成功。我们结合这两种方法,提出了一种在多语言环境中学习分布式表示的方法。我们的模型能够在不需要词对齐的情况下,为对齐的句子分配相似的嵌入向量,而为未对齐的句子分配不同的嵌入向量。我们展示了这些表示具有丰富的语义信息,并将其应用于跨语言文档分类任务,在该任务中我们的表现优于先前的最先进水平。此外,通过使用多个语言对的平行语料库,我们发现模型能够学习到捕捉那些没有平行数据的语言之间的语义关系的表示。

代码仓库

karlmoritz/bicvm
GitHub 中提及

基准测试

基准方法指标
cross-lingual-document-classification-on-12biCVM+
Accuracy: 86.2
cross-lingual-document-classification-on-13biCVM+
Accuracy: 76.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无需词对齐的多语言分布式表示 | 论文 | HyperAI超神经