
摘要
本文介绍了一种简单但具有竞争力的无监督上下位词(hypernym)发现系统。该系统采用带有负采样的skip-gram词向量模型,并在特定领域语料库上进行训练。对于输入词语,系统基于余弦相似度得分预测其候选上下位词。我们分别在两个特定领域语料库——医学语料库和音乐产业语料库上独立训练了两组词向量模型。在与其他无监督系统对比时,该系统在医学领域表现最优,但在音乐产业领域表现较差。该系统仅依赖原始的特定领域语料库,不需任何外部数据支持。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hypernym-discovery-on-medical-domain | ADAPT | MAP: 8.13 MRR: 20.56 P@5: 8.32 |
| hypernym-discovery-on-music-domain | ADAPT | MAP: 2.63 MRR: 7.46 P@5: 2.64 |