3 个月前

命名实体与形态学的神经建模(NEMO^2)

命名实体与形态学的神经建模(NEMO^2)

摘要

命名实体识别(Named Entity Recognition, NER)是自然语言处理中的一项基础任务,通常被建模为对词元(token)序列的分类问题。然而,形态丰富的语言(Morphologically-Rich Languages, MRLs)对这一基本范式构成了挑战,因为命名实体的边界并不必然与词元边界一致,而是遵循形态学边界。因此,在MRLs中开展NER研究,必须回答两个根本性问题:其一,应当以何种基本单元进行标注?其二,在缺乏真实形态标注(即无金标准形态信息)的实际场景下,这些基本单元如何被有效检测与分类?为系统探究上述问题,我们构建了一个新颖的NER基准数据集,针对现代希伯来语(Modern Hebrew)这一典型的形态丰富且具有歧义的语言,提供了并行的词元级与语素级NER标注。实验结果表明,显式建模形态边界能够显著提升NER性能;此外,我们提出一种新颖的混合架构,其中NER任务先于并指导形态分解过程,实现对形态分解的剪枝优化。该方法在性能上大幅超越传统的流水线范式(即形态分解严格先于NER),不仅为希伯来语NER任务树立了新的性能标杆,也显著推动了希伯来语形态分解任务的进展。

代码仓库

OnlpLab/AlephBERT
pytorch
GitHub 中提及
maxkrakauer/BERT
pytorch
GitHub 中提及
OnlpLab/NEMO-Corpus
官方
GitHub 中提及
OnlpLab/NEMO
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
named-entity-recognition-on-nemo-corpus-morph-1LSTM-CharCNN-CRF morph hybrid
F1: 77.11
named-entity-recognition-on-nemo-corpus-token-1LSTM-CharLSTM-CRF token-multi
F1: 77.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
命名实体与形态学的神经建模(NEMO^2) | 论文 | HyperAI超神经