4 个月前

基于知识的词义消歧使用主题模型

基于知识的词义消歧使用主题模型

摘要

词语义消歧(Word Sense Disambiguation, WSD)是自然语言处理中的一个开放问题,尤其在无监督环境下具有挑战性和实用性,因为在这种环境中需要对给定文本中的所有词语进行消歧而不使用任何标注数据。通常情况下,WSD系统利用目标词所在的句子或其周围的一小段词语作为上下文来进行消歧,因为其计算复杂度会随着上下文规模的增加而呈指数级增长。本文中,我们借助主题模型的形式设计了一种WSD系统,该系统的计算复杂度与上下文中词语的数量呈线性关系。因此,我们的系统能够利用整个文档作为待消歧词语的上下文。所提出的方法是对潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)的一种变体,在该方法中,文档的主题比例被替换为同义集(synset)比例。我们进一步利用WordNet中的信息,通过为词语上的同义集分布分配非均匀先验概率,并为文档上的同义集分布分配逻辑正态先验概率来改进方法。我们在Senseval-2、Senseval-3、SemEval-2007、SemEval-2013和SemEval-2015英语全词WSD数据集上评估了所提出的方法,并证明其显著优于当前最先进的无监督知识型WSD系统。

基准测试

基准方法指标
word-sense-disambiguation-on-knowledge-basedWSD-TM
All: 66.9
SemEval 2007: **55.6**
SemEval 2013: 65.3
SemEval 2015: 69.6
Senseval 2: **69.0**
Senseval 3: **66.9**

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于知识的词义消歧使用主题模型 | 论文 | HyperAI超神经