
摘要
上下文相关的词表示能够根据词语在不同语境中的含义生成不同的表示形式,已在问答、命名实体识别和情感分析等下游自然语言处理任务中展现出显著有效性。然而,以往研究在词义消歧(Word Sense Disambiguation, WSD)任务上的评估表明,使用上下文相关的词表示并未优于依赖非上下文词向量的最先进方法。本文探讨了多种融合预训练上下文词表示的策略,其中最优策略在多个基准WSD数据集上的准确率显著超越了此前发表的最佳结果。相关源代码已开源,地址为:https://github.com/nusnlp/contextemb-wsd。
代码仓库
nusnlp/contextemb-wsd
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-supervised | BERT (nearest neighbour) | SemEval 2007: 63.3 SemEval 2013: 69.2 SemEval 2015: 74.4 Senseval 2: 73.8 Senseval 3: 71.6 |
| word-sense-disambiguation-on-supervised | BERT (linear projection) | SemEval 2007: 68.1 SemEval 2013: 71.1 SemEval 2015: 76.2 Senseval 2: 75.5 Senseval 3: 73.6 |