7 个月前

摘要

连续词表示，通过在大规模未标注语料库上训练，对许多自然语言处理任务非常有用。现有的流行模型在学习这些表示时忽略了词的形态学特征，为每个词分配一个独立的向量。这在处理词汇量大且包含大量罕见词的语言时是一个限制。本文提出了一种基于skip-gram模型的新方法，其中每个词被表示为字符 $n$ -gram（即长度为 $n$ 的字符序列）的集合。每个字符 $n$ -gram都有一个对应的向量表示；词语则由这些向量表示的和来表示。我们的方法速度快，能够在大规模语料库上快速训练模型，并且可以计算出未出现在训练数据中的词语的表示。我们在九种不同的语言上评估了我们的词表示，在词汇相似性和类比任务中进行了测试。通过与最近提出的形态学词表示进行比较，我们展示了我们的向量在这类任务中达到了最先进的性能。