4 个月前

为157种语言学习词向量

为157种语言学习词向量

摘要

分布式词表示,或称为词向量,近年来已被应用于自然语言处理中的许多任务,取得了最先进的性能。这些表示成功应用的关键在于使用非常大的语料库进行训练,并在下游任务中使用这些预训练模型。本文描述了我们如何为157种语言训练高质量的词向量。我们使用了两个数据来源来训练这些模型:免费在线百科全书维基百科和来自通用爬虫项目的数据。此外,我们还引入了三个新的词类比数据集,用于评估这些词向量,分别针对法语、印地语和波兰语。最后,我们在存在评估数据集的10种语言上对我们的预训练词向量进行了评估,结果显示其性能远超以往的模型。

代码仓库

dzieciou/lemmatizer-pl
tf
GitHub 中提及
KMicha/MachineLearning
GitHub 中提及

基准测试

基准方法指标
task-1-grouping-on-ocwFastText (News)
Wasserstein Distance (WD): 85.5 ± .5
# Correct Groups: 62 ± 3
# Solved Walls: 0 ± 0
Adjusted Mutual Information (AMI): 15.8 ± .3
Adjusted Rand Index (ARI): 13.0 ± .2
Fowlkes Mallows Score (FMS): 30.4 ± .2
task-1-grouping-on-ocwFastText (Crawl)
Wasserstein Distance (WD): 84.2 ± .5
# Correct Groups: 80 ± 4
# Solved Walls: 0 ± 0
Adjusted Mutual Information (AMI): 18.4 ± .4
Adjusted Rand Index (ARI): 15.2 ± .3
Fowlkes Mallows Score (FMS): 32.1 ± .3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供