
摘要
命名实体识别(Named Entity Recognition, NER)是自然语言处理(NLP)中一项基础且关键的任务,旨在从自由文本中识别出命名实体(Named Entities)。近年来,由于Transformer模型中的多头注意力机制能够有效捕捉长距离上下文信息,基于Transformer的模型已成为主流方法,并在该任务中取得了显著性能提升。然而,尽管这些模型能够获取有效的全局上下文信息,其在局部特征与位置信息提取方面仍存在局限,而这两者在NER任务中至关重要。针对这一问题,本文提出一种新型的Hero-Gang神经结构(Hero-Gang Neural network, HGN),该结构由Hero模块与Gang模块构成,旨在协同利用全局与局部信息以提升NER性能。具体而言,Hero模块基于Transformer编码器,保留了自注意力机制在建模长程依赖方面的优势;Gang模块则引入多窗口循环模块,在Hero模块的引导下,有效提取局部特征与位置信息。随后,所提出的多窗口注意力机制能够将全局上下文信息与多种局部特征进行高效融合,用于实体标签的预测。在多个基准数据集上的实验结果表明,所提出的模型在命名实体识别任务中具有显著的有效性。
代码仓库
jinpeng01/hgn
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-ontonotes-v5 | HGN | F1: 90.92 |
| named-entity-recognition-on-bc2gm | HGN | F1: 85.65 |
| named-entity-recognition-on-bc5cdr-chemical | HGN | F1: 94.59 |
| named-entity-recognition-on-bc5cdr-disease | HGN | F1: 87.86 |
| named-entity-recognition-on-ontonotes-5-0 | HGN | Average F1: 90.92 |
| named-entity-recognition-on-wnut-2016 | HGN | F1: 59.50 |
| named-entity-recognition-on-wnut-2017 | HGN | F1: 57.41 |