3 个月前

通过外部上下文检索与协同学习提升命名实体识别

通过外部上下文检索与协同学习提升命名实体识别

摘要

近年来,命名实体识别(Named Entity Recognition, NER)领域的进展表明,利用文档级上下文能够显著提升模型性能。然而,在许多实际应用场景中,此类上下文信息往往不可用。本文提出一种新方法:通过以原始句子作为查询,利用搜索引擎检索并筛选出一组语义相关的外部文本,从而为该句子构建外部上下文。实验结果表明,基于检索所得外部上下文与原句拼接形成的“检索式输入视图”所计算出的上下文表示,相较于仅依赖原句的原始输入视图,能够显著提升模型性能。此外,我们进一步提出一种协同学习(Cooperative Learning)训练方法,通过促使两个输入视图(原始输入视图与检索式输入视图)生成相似的上下文表示或输出标签分布,进一步优化模型表现。在涵盖5个不同领域的8个NER数据集上的实验结果表明,所提方法达到了新的最先进(state-of-the-art)性能水平。

代码仓库

基准测试

基准方法指标
chinese-named-entity-recognition-on-msraBERT-CRF (Replicated in AdaSeq)
F1: 96.69
chinese-named-entity-recognition-on-resumeBERT-CRF (Replicated in AdaSeq)
F1: 96.87
chinese-named-entity-recognition-on-weibo-nerBERT-CRF (Replicated in AdaSeq)
F1: 72.77
chunking-on-conll-2000BERT-CRF (Replicated in AdaSeq)
Exact Span F1: 97.18
named-entity-recognition-ner-on-bc5cdrCL-L2
F1: 90.99
named-entity-recognition-ner-on-conll-2003BERT-CRF (Replicated in AdaSeq)
F1: 93.35
named-entity-recognition-ner-on-conll-2003CL-KL
F1: 93.85
named-entity-recognition-ner-on-ncbi-diseaseCL-KL
F1: 88.96
named-entity-recognition-on-cmeeeBERT-CRF (Replicated in AdaSeq)
F1: 68.97
named-entity-recognition-on-conllCL-KL
F1: 94.81
named-entity-recognition-on-wnut-2016CL-KL
F1: 58.98
named-entity-recognition-on-wnut-2017BERT-CRF (Replicated in AdaSeq)
F1: 59.69
named-entity-recognition-on-wnut-2017CL-KL
F1: 60.45

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过外部上下文检索与协同学习提升命名实体识别 | 论文 | HyperAI超神经