4 个月前

通用NER:一个多语言命名实体识别的金标准基准

通用NER:一个多语言命名实体识别的金标准基准

摘要

我们介绍了通用命名实体识别(Universal NER,简称UNER),这是一个开放的、社区驱动的项目,旨在开发多种语言的黄金标准命名实体识别(NER)基准数据集。UNER的主要目标是提供高质量、跨语言一致的注释,以促进和标准化多语言NER研究。UNER v1 包含了12种不同语言的18个数据集,这些数据集均使用跨语言一致的模式进行了命名实体注释。在本文中,我们详细描述了UNER的数据集创建过程及其组成;同时提供了在单语和跨语学习设置下的初步建模基线。我们向公众发布了数据、代码和训练好的模型。

代码仓库

基准测试

基准方法指标
cross-lingual-ner-on-uner-v1-cebuanoUNER XML-R (all)
F1 (micro): 69.6
cross-lingual-ner-on-uner-v1-chineseUNER XML-R (all)
F1 (micro): 88.2
cross-lingual-ner-on-uner-v1-chinese-1UNER XML-R (all)
F1 (micro): 87.7
cross-lingual-ner-on-uner-v1-croatianUNER XML-R (all)
F1 (micro): 90.9
cross-lingual-ner-on-uner-v1-danishUNER XML-R (all)
F1 (micro): 83.0
cross-lingual-ner-on-uner-v1-englishUNER XML-R (all)
F1 (micro): 82.8
cross-lingual-ner-on-uner-v1-portugueseUNER XML-R (all)
F1 (micro): 82.3
cross-lingual-ner-on-uner-v1-pud-chineseUNER XML-R (all)
F1 (micro): 86.0
cross-lingual-ner-on-uner-v1-pud-englishUNER XML-R (all)
F1 (micro): 79.5
cross-lingual-ner-on-uner-v1-pud-germanUNER XML-R (all)
F1 (micro): 78.9
cross-lingual-ner-on-uner-v1-pud-portugueseUNER XML-R (all)
F1 (micro): 85.1
cross-lingual-ner-on-uner-v1-pud-russianUNER XML-R (all)
F1 (micro): 70.6
cross-lingual-ner-on-uner-v1-pud-swedishUNER XML-R (all)
F1 (micro): 85.3
cross-lingual-ner-on-uner-v1-serbianUNER XML-R (all)
F1 (micro): 95.2
cross-lingual-ner-on-uner-v1-slovakUNER XML-R (all)
F1 (micro): 81.6
cross-lingual-ner-on-uner-v1-swedishUNER XML-R (all)
F1 (micro): 88.2
cross-lingual-ner-on-uner-v1-tagalog-tUNER XML-R (all)
F1 (micro): 91.3
cross-lingual-ner-on-uner-v1-tagalog-uUNER XML-R (all)
F1 (micro): 63.8
named-entity-recognition-ner-on-uner-v1UNER XML-R
F1 (micro): 82.70
named-entity-recognition-ner-on-uner-v1-1UNER XML-R
F1 (micro): 86.00
named-entity-recognition-ner-on-uner-v1-2UNER XML-R
F1 (micro): 93.60
named-entity-recognition-ner-on-uner-v1-3UNER XML-R
F1 (micro): 90.4
named-entity-recognition-ner-on-uner-v1-4UNER XML-R
F1 (micro): 85.50
named-entity-recognition-ner-on-uner-v1-5UNER XML-R
F1 (micro): 94.70
named-entity-recognition-ner-on-uner-v1-6UNER XML-R
F1 (micro): 88.30
named-entity-recognition-ner-on-uner-v1-7UNER XML-R
F1 (micro): 89.50
named-entity-recognition-ner-on-uner-v1-8UNER XML-R
F1 (micro): 89.40
named-entity-recognition-ner-on-uner-v1-pudUNER XML-R
F1 (micro): 80.10
named-entity-recognition-ner-on-uner-v1-pud-1UNER XML-R
F1 (micro): 88.80
named-entity-recognition-ner-on-uner-v1-pud-2UNER XML-R
F1 (micro): 82.20
named-entity-recognition-ner-on-uner-v1-pud-3UNER XML-R
F1 (micro): 87.10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通用NER:一个多语言命名实体识别的金标准基准 | 论文 | HyperAI超神经