
摘要
连续词表示,通过在大规模未标注语料库上训练,对许多自然语言处理任务非常有用。现有的流行模型在学习这些表示时忽略了词的形态学特征,为每个词分配一个独立的向量。这在处理词汇量大且包含大量罕见词的语言时是一个限制。本文提出了一种基于skip-gram模型的新方法,其中每个词被表示为字符$n$-gram(即长度为$n$的字符序列)的集合。每个字符$n$-gram都有一个对应的向量表示;词语则由这些向量表示的和来表示。我们的方法速度快,能够在大规模语料库上快速训练模型,并且可以计算出未出现在训练数据中的词语的表示。我们在九种不同的语言上评估了我们的词表示,在词汇相似性和类比任务中进行了测试。通过与最近提出的形态学词表示进行比较,我们展示了我们的向量在这类任务中达到了最先进的性能。
代码仓库
FengJiaChunFromSYSU/fastText
GitHub 中提及
GitHubSprint/fasttext4j
GitHub 中提及
labdac/charlacompling
GitHub 中提及
amymariaparker2401/new
GitHub 中提及
bung87/fastText
GitHub 中提及
M155K4R4/fastText
GitHub 中提及
pommedeterresautee/fastrtext
GitHub 中提及
plasticityai/magnitude
pytorch
GitHub 中提及
ericxsun/fastText
GitHub 中提及
luckyPT/jvm-ml
tf
GitHub 中提及
oapio/nlp-chinese-experiments
GitHub 中提及
vinhkhuc/JFastText
GitHub 中提及
mrzzy/np-dl-assign-2
tf
GitHub 中提及
MirkoLenz/ReCAP-Argument-Graph-Retrieval
tf
GitHub 中提及
ulf1/augtxt
GitHub 中提及
Omerktn/fastText-iterative
GitHub 中提及
currentsapi/fastlangid
GitHub 中提及
Nim-NLP/fastText
GitHub 中提及
Kinetikm/fastTextRelearning
GitHub 中提及
SarangShaikh201/fastText
GitHub 中提及
divisionai/fastText
GitHub 中提及
rmenegaux/fastDNA
GitHub 中提及
lmd1993/fastTextBoost
GitHub 中提及
dmlc/gluon-nlp
mxnet
kpu/fastertext
GitHub 中提及
explosion/floret
GitHub 中提及
xuzhezhaozhao/fastText_reading
GitHub 中提及
mwydmuch/extremeText
tf
GitHub 中提及
indix/whatthelang
GitHub 中提及
bamtercelboo/cw2vec
GitHub 中提及
vackosar/fasttext-vector-norms-and-oov-words
tf
GitHub 中提及
trietnm2/sent2vec4j
GitHub 中提及
cui0523/Code6/tree/main/fasttext
mindspore
babylonhealth/fastText_multilingual
GitHub 中提及
jen1995/fastText
GitHub 中提及
luhuiguo/jfasttext
GitHub 中提及
facebookresearch/fastText
官方
GitHub 中提及
ZZhangyutong/fasttext
mindspore
wyfish/fastText
GitHub 中提及
tshev/faster-FastText
GitHub 中提及
DW-yejing/fasttext4j-jdk6
GitHub 中提及
linkfluence/fastText4j
GitHub 中提及
Kinetikm/fasttextRelearnExperiment
GitHub 中提及
MhYao2014/HyperbolicEmbedding
GitHub 中提及
ahmedssabir/Visual-Semantic-Relatedness-with-Word-Embedding
pytorch
GitHub 中提及
Babylonpartners/fastText_multilingual
GitHub 中提及
ppke-nlpg/fastText_factored-cbow
GitHub 中提及
ReCAP-UTR/Argument-Graph-Retrieval
tf
GitHub 中提及
dbaumgarten/FToDTF
tf
GitHub 中提及
romik9999/fasttext-1925f09ed3
GitHub 中提及
zhang2010hao/cw2vec-pytorch
pytorch
GitHub 中提及
hufscapstone/Fast_text
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-similarity-on-ws353 | SkipGram | Spearman's Rho: 61.0 |