4 个月前

AutoSense 模型用于词义诱导

AutoSense 模型用于词义诱导

摘要

词语义项归纳(Word Sense Induction, WSI),即自动发现一个词的多个意义的任务,面临三个主要挑战:领域适应性、新义项检测和义项粒度灵活性。尽管当前的潜在变量模型已知能够解决前两个挑战,但它们在不同词语义项粒度方面缺乏灵活性,而这些粒度在不同词语之间差异很大,从只有一个义项的“土豚”到有超过50个义项的“玩”。目前的模型要么需要超参数调整,要么需要非参数化的义项数量推断,我们发现这两种方法都不够有效。因此,我们提出了一种基于两个观察结果的新模型——AutoSense,旨在消除这些需求并解决义项粒度问题:(1) 义项可以表示为话题上的分布;(2) 义项生成目标词与其邻近词之间的配对。这两个观察结果通过以下方式缓解了问题:(a) 消除无用的义项;(b) 进一步诱导出细粒度的词语义项。实验结果显示,在流行的WSI数据集上,AutoSense相比现有最先进模型取得了显著改进。此外,我们还证明了AutoSense能够学习到一个词的适当义项粒度。最后,我们将AutoSense应用于无监督作者姓名消歧任务,在该任务中义项粒度问题更为明显,并展示了AutoSense明显优于其他竞争模型。我们的数据和代码共享在此处:https://github.com/rktamplayo/AutoSense。

代码仓库

基准测试

基准方法指标
word-sense-induction-on-semeval-2010-wsi-1AutoSense
AVG: 24.59
F-Score: 61.7
V-Measure: 9.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AutoSense 模型用于词义诱导 | 论文 | HyperAI超神经