
摘要
在词语义消歧(WSD)中,主流方法通常涉及基于义项标注语料库训练的监督系统。然而,这类语料库的数量有限,限制了系统的覆盖范围和性能。本文提出了一种新方法,通过利用WordNet中的知识,特别是同义词集之间的上下位关系(hypernymy 和 hyponymy),来减少对词汇数据库中所有词语进行消歧所需的不同的义项标签数量。我们的方法在大多数WSD评估任务中取得了最先进的结果,同时提高了监督系统的覆盖范围,减少了训练时间和模型大小,而无需额外的训练数据。此外,当我们的方法与集成技术结合,并将WordNet释义标签作为训练语料时,实验结果显著优于现有最先进水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-semeval-2007 | SemCor+WNGT, vocabulary reduced, ensemble | F1: 66.81 |
| word-sense-disambiguation-on-semeval-2007-1 | SemCor+WNGT, vocabulary reduced, ensemble | F1: 86.02 |
| word-sense-disambiguation-on-semeval-2013 | SemCor+WNGT, vocabulary reduced, ensemble | F1: 72.63 |
| word-sense-disambiguation-on-semeval-2015 | SemCor+WNGT, vocabulary reduced, ensemble | F1: 74.46 |
| word-sense-disambiguation-on-senseval-2 | SemCor+WNGT, vocabulary reduced, ensemble | F1: 75.15 |
| word-sense-disambiguation-on-senseval-3-task | SemCor+WNGT, vocabulary reduced, ensemble | F1: 70.11 |
| word-sense-disambiguation-on-supervised | SemCor+WNGT, vocabulary reduced, ensemble | SemEval 2007: 66.81 SemEval 2013: 72.63 SemEval 2015: 74.46 Senseval 2: 75.15 Senseval 3: 70.11 |