3 个月前

通过词义消歧中的定义信息引导双编码器向长尾推进

通过词义消歧中的定义信息引导双编码器向长尾推进

摘要

词语义消歧(Word Sense Disambiguation, WSD)面临的一个主要障碍是词义在语料中分布不均,导致现有模型在处理训练阶段罕见或未见的词义时表现普遍较差。为此,我们提出一种双编码器(bi-encoder)模型,该模型独立地对以下两部分进行嵌入:(1)目标词及其上下文信息;(2)每个词义对应的词典定义(即gloss)。两个编码器在统一的表示空间中联合优化,使得词义消歧可通过为每个目标词嵌入寻找最相近的词义嵌入来实现。该系统在英语全词义消歧任务上超越了以往的最先进模型,其性能提升主要体现在对罕见词义的处理上,相较于先前方法,对低频词义的错误率降低了31.1%。这一结果表明,通过建模词义定义,能够更有效地实现罕见词义的消歧。

基准测试

基准方法指标
word-sense-disambiguation-on-supervisedBEM
SemEval 2007: 74.5
SemEval 2013: 79.7
SemEval 2015: 81.7
Senseval 2: 79.4
Senseval 3: 77.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过词义消歧中的定义信息引导双编码器向长尾推进 | 论文 | HyperAI超神经