
摘要
由于最近的技术和科学进步,我们拥有大量隐藏在非结构化文本数据中的信息,这些数据包括离线/在线叙述、研究文章和临床报告。为了有效地挖掘这些数据,鉴于其固有的模糊性,一个词义消歧(Word Sense Disambiguation, WSD)算法可以在自然语言处理(Natural Language Processing, NLP)流程中避免许多困难。然而,考虑到一种语言或技术领域中存在大量模糊词汇,现有WSD模型的适当部署可能会遇到限制。本文尝试通过提出一个单一的双向长短期记忆(Bidirectional Long Short-Term Memory, BLSTM)网络来解决每个词一个分类器的WSD算法问题,该网络通过考虑词义和上下文序列对所有模糊词汇进行集体处理。我们在SensEval-3基准上评估了我们的模型,结果显示其性能与顶级WSD算法相当。我们还讨论了如何通过应用额外的修改来减轻模型错误以及对更多训练数据的需求。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-sense-disambiguation-on-senseval-3 | Single BiLSTM | F1: 72.5 |