4 个月前

ShotgunWSD:一种受DNA测序启发的全局词义消歧无监督算法

ShotgunWSD:一种受DNA测序启发的全局词义消歧无监督算法

摘要

本文提出了一种新颖的无监督算法,用于文档级别的词语义消歧(Word Sense Disambiguation, WSD)。该算法受到遗传学领域广泛使用的全基因组测序方法——鸟枪法测序技术(Shotgun sequencing technique)的启发。所提出的WSD算法基于三个主要步骤。首先,对从文档中选择的短上下文窗口(最多10个词)应用一种暴力WSD算法,以生成每个窗口可能的义项配置的简短列表。在第二步中,这些局部义项配置通过后缀和前缀匹配被组装成长的复合配置。生成的配置按长度排序,每个词的意义则根据投票方案确定,该方案仅考虑出现该词的前k个配置。我们将该算法与其他最先进的无监督WSD算法进行了比较,并展示了其优越性能,有时甚至有显著的优势。我们还证明了在某个数据集上,我们的算法可以优于最常见的意义(Most Common Sense, MCS)基线方法。此外,我们的算法参数非常少,对参数调整具有鲁棒性,并且与其它生物启发方法不同的是,它提供了一个确定性的解决方案(不涉及随机选择)。

基准测试

基准方法指标
word-sense-disambiguation-on-semeval-2007-1ShotgunWSD 2.0
F1: 81.22
Unsupervised: yes
word-sense-disambiguation-on-semeval-2013ShotgunWSD 2.0
F1: 63.05
Unsupervised: yes

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ShotgunWSD:一种受DNA测序启发的全局词义消歧无监督算法 | 论文 | HyperAI超神经