3 个月前

定位与标注:一种两阶段嵌套命名实体识别标识器

定位与标注:一种两阶段嵌套命名实体识别标识器

摘要

命名实体识别(Named Entity Recognition, NER)是自然语言处理领域中一项被广泛研究的任务。传统NER研究仅关注平铺式实体(flat entities),忽略了嵌套实体(nested entities)的存在。基于跨度(span-based)的方法将实体识别建模为跨度分类任务,尽管这类方法在理论上具备处理嵌套NER的能力,但仍面临计算成本高、忽略边界信息、对部分匹配跨度的利用不足以及长实体识别困难等问题。为解决上述挑战,本文提出一种两阶段实体识别框架。首先,通过在初始跨度(seed spans)上进行筛选与边界回归,生成候选跨度以定位实体;随后,对边界调整后的候选跨度进行类别标注。该方法在训练过程中有效利用了实体的边界信息以及部分匹配的跨度。借助边界回归机制,理论上可覆盖任意长度的实体,显著提升了对长实体的识别能力。此外,第一阶段可过滤掉大量低质量的初始跨度,从而降低推理阶段的时间复杂度。在多个嵌套NER数据集上的实验结果表明,所提出的模型在性能上超越了以往最先进的方法。

代码仓库

tricktreat/locate-and-label
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
chinese-named-entity-recognition-on-weibo-nerLocate and Label
F1: 69.16
named-entity-recognition-ner-on-conll-2003Locate and Label
F1: 92.94
named-entity-recognition-on-ace-2005Locate and Label
F1: 86.67
nested-named-entity-recognition-on-ace-2004Locate and Label
F1: 87.41
nested-named-entity-recognition-on-ace-2005Locate and Label
F1: 86.67
nested-named-entity-recognition-on-geniaLocate and Label
F1: 80.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
定位与标注:一种两阶段嵌套命名实体识别标识器 | 论文 | HyperAI超神经