
摘要
分布式词表示,或称为词向量,近年来已被应用于自然语言处理中的许多任务,取得了最先进的性能。这些表示成功应用的关键在于使用非常大的语料库进行训练,并在下游任务中使用这些预训练模型。本文描述了我们如何为157种语言训练高质量的词向量。我们使用了两个数据来源来训练这些模型:免费在线百科全书维基百科和来自通用爬虫项目的数据。此外,我们还引入了三个新的词类比数据集,用于评估这些词向量,分别针对法语、印地语和波兰语。最后,我们在存在评估数据集的10种语言上对我们的预训练词向量进行了评估,结果显示其性能远超以往的模型。
代码仓库
dzieciou/lemmatizer-pl
tf
GitHub 中提及
KMicha/MachineLearning
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| task-1-grouping-on-ocw | FastText (News) | Wasserstein Distance (WD): 85.5 ± .5 # Correct Groups: 62 ± 3 # Solved Walls: 0 ± 0 Adjusted Mutual Information (AMI): 15.8 ± .3 Adjusted Rand Index (ARI): 13.0 ± .2 Fowlkes Mallows Score (FMS): 30.4 ± .2 |
| task-1-grouping-on-ocw | FastText (Crawl) | Wasserstein Distance (WD): 84.2 ± .5 # Correct Groups: 80 ± 4 # Solved Walls: 0 ± 0 Adjusted Mutual Information (AMI): 18.4 ± .4 Adjusted Rand Index (ARI): 15.2 ± .3 Fowlkes Mallows Score (FMS): 32.1 ± .3 |