
摘要
近年来提出的大多数命名实体识别神经模型均为纯数据驱动型,强调尽可能避免依赖外部资源的收集或人工设计特征。然而,由于模型仅能依赖少量标注数据中的监督信号,缺乏额外的外部信息,这种做法容易导致过拟合,限制了模型在未见实体上的泛化能力。本文表明,合理利用外部词典(gazetteers)能够有效提升序列神经命名实体识别模型的性能。我们在近期提出的混合半马尔可夫CRF架构基础上引入一个简洁的模块,实验结果表明该方法取得了令人鼓舞的效果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-conll-2003 | HSCRF + softdict | F1: 92.75 |
| named-entity-recognition-ner-on-ontonotes-v5 | HSCRF + softdict | F1: 89.94 |