
摘要
本文表明,通过采用稀疏的词表示方法,能够在细粒度全词词义消歧任务上超越更为复杂的特定任务模型的性能。我们提出的算法基于一个过完备的语义基向量集合,从而能够获得稀疏的上下文相关词表示。我们引入了一种受信息论启发的同义词集(synset)表示方法,该方法结合词义共现关系与词形的非零坐标信息,最终在五个标准词义消歧基准数据集的组合上实现了78.8的综合F值。此外,我们通过在四个不同树库(treebanks)上进行词性标注任务的评估,进一步验证了所提出框架的通用性。实验结果表明,相较于传统的稠密词表示方法,我们的方法在性能上实现了显著提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-supervised | SparseLMMS+WNGC | SemEval 2007: 73.0 SemEval 2013: 79.4 SemEval 2015: 81.3 Senseval 2: 79.6 Senseval 3: 77.3 |
| word-sense-disambiguation-on-supervised | SparseLMMS | SemEval 2007: 68.8 SemEval 2013: 76.1 SemEval 2015: 77.5 Senseval 2: 77.9 Senseval 3: 77.8 |