
摘要
超类关系在自然语言处理中的基本作用激发了众多自动识别该关系方法的开发,其中大多数方法依赖于词汇分布。本文研究了大量此类无监督度量方法,使用了几种不同的上下文类型和特征权重的分布语义模型。我们基于这些方法的语言学动机分析了它们的性能。与最先进的有监督方法相比,尽管有监督方法通常优于无监督方法,但前者对训练实例的分布较为敏感,影响了其可靠性。由于无监督度量方法基于普遍的语言学假设且独立于训练数据,因此更加稳健,仍然是超类关系检测的重要工具。
代码仓库
vered1986/UnsupervisedHypernymy
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hypernym-discovery-on-general | balAPInc | MAP: 1.36 MRR: 3.18 P@5: 1.30 |
| hypernym-discovery-on-medical-domain | balAPInc | MAP: 0.91 MRR: 2.10 P@5: 1.08 |
| hypernym-discovery-on-music-domain | balAPInc | MAP: 1.95 MRR: 5.01 P@5: 2.15 |