4 个月前

利用子词信息丰富词向量

利用子词信息丰富词向量

摘要

连续词表示,通过在大规模未标注语料库上训练,对许多自然语言处理任务非常有用。现有的流行模型在学习这些表示时忽略了词的形态学特征,为每个词分配一个独立的向量。这在处理词汇量大且包含大量罕见词的语言时是一个限制。本文提出了一种基于skip-gram模型的新方法,其中每个词被表示为字符$n$-gram(即长度为$n$的字符序列)的集合。每个字符$n$-gram都有一个对应的向量表示;词语则由这些向量表示的和来表示。我们的方法速度快,能够在大规模语料库上快速训练模型,并且可以计算出未出现在训练数据中的词语的表示。我们在九种不同的语言上评估了我们的词表示,在词汇相似性和类比任务中进行了测试。通过与最近提出的形态学词表示进行比较,我们展示了我们的向量在这类任务中达到了最先进的性能。

代码仓库

GitHubSprint/fasttext4j
GitHub 中提及
labdac/charlacompling
GitHub 中提及
amymariaparker2401/new
GitHub 中提及
bung87/fastText
GitHub 中提及
M155K4R4/fastText
GitHub 中提及
plasticityai/magnitude
pytorch
GitHub 中提及
ericxsun/fastText
GitHub 中提及
luckyPT/jvm-ml
tf
GitHub 中提及
vinhkhuc/JFastText
GitHub 中提及
mrzzy/np-dl-assign-2
tf
GitHub 中提及
ulf1/augtxt
GitHub 中提及
currentsapi/fastlangid
GitHub 中提及
Nim-NLP/fastText
GitHub 中提及
SarangShaikh201/fastText
GitHub 中提及
divisionai/fastText
GitHub 中提及
rmenegaux/fastDNA
GitHub 中提及
lmd1993/fastTextBoost
GitHub 中提及
kpu/fastertext
GitHub 中提及
explosion/floret
GitHub 中提及
mwydmuch/extremeText
tf
GitHub 中提及
indix/whatthelang
GitHub 中提及
bamtercelboo/cw2vec
GitHub 中提及
trietnm2/sent2vec4j
GitHub 中提及
jen1995/fastText
GitHub 中提及
luhuiguo/jfasttext
GitHub 中提及
facebookresearch/fastText
官方
GitHub 中提及
wyfish/fastText
GitHub 中提及
tshev/faster-FastText
GitHub 中提及
linkfluence/fastText4j
GitHub 中提及
dbaumgarten/FToDTF
tf
GitHub 中提及
zhang2010hao/cw2vec-pytorch
pytorch
GitHub 中提及
hufscapstone/Fast_text
GitHub 中提及

基准测试

基准方法指标
word-similarity-on-ws353SkipGram
Spearman's Rho: 61.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用子词信息丰富词向量 | 论文 | HyperAI超神经