3 个月前

HiNER:一个大规模印地语命名实体识别数据集

HiNER:一个大规模印地语命名实体识别数据集

摘要

命名实体识别(Named Entity Recognition, NER)是自然语言处理(NLP)的一项基础任务,旨在为自由文本中的词语打上类别标签,如“人名”(Person)、“地点”(Location)、“组织机构”(Organisation)、“时间”(Time)和“数字”(Number)等。命名实体也可能表现为多词表达,此时通过附加的I-O-B(Inside-Outside-Beginning)标注信息,有助于在NER标注过程中准确识别和标记这些实体。尽管英语及欧洲语言在NER任务上已有较为丰富的标注数据,但印度语言在这一方面仍显不足——无论是数据规模还是标注标准的遵循程度均存在明显短板。本文发布了一个规模显著、符合标准的印地语NER数据集,包含109,146个句子和2,220,856个词元(tokens),采用11个标签进行标注。我们对数据集的各项统计信息进行了详尽分析,并深入探讨了所使用的NER标签体系。结果显示,该数据集中各标签的分布较为均衡,尤其在“人名”、“地点”和“组织机构”等关键类别上表现良好。衡量资源有效性的重要标准在于:利用该资源构建模型,并在基准数据集上进行测试,与共享任务中的领先成果进行对比。为此,我们基于该数据集开展了相应实验。采用多种语言模型完成NER的序列标注任务,并与在现有印地语NER数据集上训练的模型进行了对比评估。实验结果表明,我们的数据集在所有标签上实现了88.78的加权F1分数,而在标签体系简化(标签合并)后,F1分数提升至92.22,如论文所述。据我们所知,目前尚无任何公开可用的印地语NER数据集在数据体量(规模)和语料多样性(变异性)方面同时达到本研究的水平。本工作填补了这一空白,有望显著推动印地语自然语言处理的发展。为促进研究共享与复现,我们已将该数据集、相关代码及训练模型公开发布于GitHub:https://github.com/cfiltnlp/HiNER。

代码仓库

cfiltnlp/hiner
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
named-entity-recognition-on-hiner-collapsedcfilt/HiNER-collapsed-muril-base-cased
F1-score (Weighted): 92.11
named-entity-recognition-on-hiner-collapsedcfilt/HiNER-collapsed-xlm-roberta-large
F1-score (Weighted): 92.22
named-entity-recognition-on-hiner-originalcfilt/HiNER-original-xlm-roberta-large
F1-score (Weighted): 88.78
named-entity-recognition-on-hiner-originalcfilt/HiNER-original-muril-base-cased
F1-score (Weighted): 88.27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HiNER:一个大规模印地语命名实体识别数据集 | 论文 | HyperAI超神经