
摘要
本文旨在解决词义消歧任务中手动标注语料库数量有限的问题,通过利用词义之间的语义关系(如同义关系、上位关系和下位关系),压缩普林斯顿WordNet的词义词汇表,从而减少为消歧所有词汇数据库中的词语所需观察的不同词义标签的数量。我们提出了两种不同的方法,这些方法可以显著减小神经网络词义消歧模型的规模,同时在不增加训练数据的情况下提高其覆盖率,且不影响其精度。此外,我们还介绍了一个依赖预训练BERT词向量的词义消歧系统,该系统在所有词义消歧评估任务上的表现均显著优于现有最佳方法。
代码仓库
getalp/disambiguate
官方
pytorch
GitHub 中提及
Gozzo18/WSD-Final-Homework---NLP
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-semeval-2007 | SemCor+WNGC, hypernyms | F1: 73.4 |
| word-sense-disambiguation-on-semeval-2007-1 | SemCor+WNGC, hypernyms | F1: 90.4 |
| word-sense-disambiguation-on-semeval-2013 | SemCor+WNGC, hypernyms | F1: 78.7 |
| word-sense-disambiguation-on-semeval-2015 | SemCor+WNGC, hypernyms | F1: 82.6 |
| word-sense-disambiguation-on-senseval-2 | SemCor+WNGC, hypernyms | F1: 79.7 |
| word-sense-disambiguation-on-senseval-3-task | SemCor+WNGC, hypernyms | F1: 77.8 |
| word-sense-disambiguation-on-supervised | SemCor+WNGC, hypernyms | SemEval 2007: 73.4 SemEval 2013: 78.7 SemEval 2015: 82.6 Senseval 2: 79.7 Senseval 3: 77.8 |