3 个月前

基于真大小写预训练的鲁棒命名实体识别

基于真大小写预训练的鲁棒命名实体识别

摘要

尽管现代命名实体识别(NER)系统在标准数据集上表现出色,但在面对噪声数据时性能显著下降。尤其值得注意的是,大小写在多种语言中是实体识别的重要线索,而即使是当前最先进的模型也过度依赖这一特征,导致在全小写文本上的表现急剧恶化。本文针对噪声或不确定大小写数据下NER系统鲁棒性不足的问题,提出一种基于预训练的解决方案:通过设计一个预测文本大小写的预训练目标(即真大小写模型,truecaser),充分利用无标注数据进行训练。该预训练的truecaser模型通过将输出分布附加到字符嵌入(character embeddings)的方式,与标准的BiLSTM-CRF NER模型相结合。在多个涵盖不同领域且大小写质量各异的数据集上的实验表明,所提方法显著提升了全小写文本上的识别性能,甚至能为全小写BERT嵌入带来额外增益。本方法在WNUT17共享任务数据集上取得了新的最先进(SOTA)性能。

基准测试

基准方法指标
named-entity-recognition-on-wnut-2017Truecase
F1: 52.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于真大小写预训练的鲁棒命名实体识别 | 论文 | HyperAI超神经