
摘要
词语义消歧(Word Sense Disambiguation, WSD)是自然语言处理中的一个开放问题,尤其在无监督环境下具有挑战性和实用性,因为在这种环境中需要对给定文本中的所有词语进行消歧而不使用任何标注数据。通常情况下,WSD系统利用目标词所在的句子或其周围的一小段词语作为上下文来进行消歧,因为其计算复杂度会随着上下文规模的增加而呈指数级增长。本文中,我们借助主题模型的形式设计了一种WSD系统,该系统的计算复杂度与上下文中词语的数量呈线性关系。因此,我们的系统能够利用整个文档作为待消歧词语的上下文。所提出的方法是对潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)的一种变体,在该方法中,文档的主题比例被替换为同义集(synset)比例。我们进一步利用WordNet中的信息,通过为词语上的同义集分布分配非均匀先验概率,并为文档上的同义集分布分配逻辑正态先验概率来改进方法。我们在Senseval-2、Senseval-3、SemEval-2007、SemEval-2013和SemEval-2015英语全词WSD数据集上评估了所提出的方法,并证明其显著优于当前最先进的无监督知识型WSD系统。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-knowledge-based | WSD-TM | All: 66.9 SemEval 2007: **55.6** SemEval 2013: 65.3 SemEval 2015: 69.6 Senseval 2: **69.0** Senseval 3: **66.9** |