
摘要
词语义消歧(Word Sense Disambiguation, WSD)面临的一个主要障碍是词义在语料中分布不均,导致现有模型在处理训练阶段罕见或未见的词义时表现普遍较差。为此,我们提出一种双编码器(bi-encoder)模型,该模型独立地对以下两部分进行嵌入:(1)目标词及其上下文信息;(2)每个词义对应的词典定义(即gloss)。两个编码器在统一的表示空间中联合优化,使得词义消歧可通过为每个目标词嵌入寻找最相近的词义嵌入来实现。该系统在英语全词义消歧任务上超越了以往的最先进模型,其性能提升主要体现在对罕见词义的处理上,相较于先前方法,对低频词义的错误率降低了31.1%。这一结果表明,通过建模词义定义,能够更有效地实现罕见词义的消歧。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-supervised | BEM | SemEval 2007: 74.5 SemEval 2013: 79.7 SemEval 2015: 81.7 Senseval 2: 79.4 Senseval 3: 77.4 |